KR100940365B1 - 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체 - Google Patents

웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR100940365B1
KR100940365B1 KR1020080033925A KR20080033925A KR100940365B1 KR 100940365 B1 KR100940365 B1 KR 100940365B1 KR 1020080033925 A KR1020080033925 A KR 1020080033925A KR 20080033925 A KR20080033925 A KR 20080033925A KR 100940365 B1 KR100940365 B1 KR 100940365B1
Authority
KR
South Korea
Prior art keywords
web
image
tagging
web page
parsing
Prior art date
Application number
KR1020080033925A
Other languages
English (en)
Other versions
KR20090108486A (ko
Inventor
양병석
최원효
정희화
황준호
김형태
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080033925A priority Critical patent/KR100940365B1/ko
Priority to JP2009097249A priority patent/JP2009259248A/ja
Publication of KR20090108486A publication Critical patent/KR20090108486A/ko
Application granted granted Critical
Publication of KR100940365B1 publication Critical patent/KR100940365B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 일 태양에 따르면, 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 방법으로서, (a) 웹 페이지에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 단계, (b) 상기 판독 결과를 파싱(parsing)하는 단계, 및 (c) 상기 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 웹 페이지 및 상기 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 단계를 포함하는 방법이 제공된다.
이미지, OCR, 태그

Description

웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체{METHOD, APPARATUS AND COMPUTER-READABLE RECORDING MEDIUM FOR TAGGING IMAGE CONTAINED IN WEB PAGE AND PROVIDING WEB SEARCH SERVICE USING TAGGED RESULT}
본 발명은 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 보다 상세하게는, 웹 페이지에 포함되는 이미지에 대하여 문자 판독을 수행하고, 그 결과를 이용하여 태깅을 수행하며, 그 결과에 기초하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 인터넷 사용이 보편화되면서 사용자들은 인터넷 검색을 통하여 다양한 정보를 획득할 수 있게 되었다.  즉, 사용자들은 인터넷에의 접속이 가능한 개인용 컴퓨터 등의 단말 장치를 통해 Internet ExplorerTM, NetscapeTM, LynxTM 등과 같은 웹 브라우저를 기동시키고, 웹 브라우저의 주소창에 URL(Uniform Resource Locator) 등과 같은 식별자를 입력함으로써 인터넷 검색 사이트에 접속한 후, 뉴스, 지식, 게임, 커뮤니티 등과 관련된 각종 컨텐츠를 검색할 수 있게 되었다.
이러한 웹 컨텐츠를 검색하는 방식 중에는, 방대한 양의 웹 페이지를 읽어 들여 관리하되, 웹 컨텐츠에 대한 검색 요청이 있는 경우, 사용자로부터 입력된 키워드(즉, 검색 질의어)에 대응하는 특정 웹 컨텐츠를 제공하는 검색 방식이 있었다.  이러한 검색 방식은 검색 요청을 하는 사용자가 검색 결과를 예상하고 관련 키워드를 미리 인지하여 입력하는 것으로서, 그 검색 결과가 비교적 정확하게 제공된다.
또한, 이러한 키워드 입력에 의한 검색 방식은 각 키워드에 대응하는 검색 결과 중에 광고주가 사전에 광고를 등록해 두는 경우에도 유용하게 이용될 수 있다.
그러나, 위와 같은 키워드 입력에 의한 검색 방식은 대개 검색 결과가 텍스트로 이루어지는 경우에만 유효하다는 문제점이 있었다.
따라서, 이러한 문제점을 해결하기 위해 태그에 의한 검색 방식이 개발되었다. 태그에 의한 검색 방식이란, 다양한 형식의 웹 컨텐츠마다 태그를 미리 부여하여 두고, 부여된 태그를 태그 리스트로 목록화한 후, 사용자가 선택한 태그와 연관된 웹 컨텐츠를 사용자에게 제공하는 방식이다. 이때, 웹 컨텐츠에 태그를 부여하는 주체는 인터넷 검색 포털 사이트의 운영자일 수도 있고, 웹 컨텐츠를 인터넷 검색 포털 사이트에 업로드하는 사용자일 수도 있다.
현재까지는, 각 웹 페이지에 포함되어 있는 텍스트 정보만을 주로 이용하여 태깅을 수행하였다. 즉, XML(eXtensible Markup Language) 또는 HTML(Hypertext Markup Language) 등의 마크업 언어로 표현되는 웹 페이지의 텍스트 정보에 기초하여 태깅이 수행되었기 때문에, 태그 부여의 주체와 관계 없이, 텍스트만이 태그 정보로서 이용되었다.
이에 따라, 웹 페이지 내에 이미지를 포함하는 파일(예를 들면, 이미지, 동영상, 플래시 영상 등)이 존재하는 경우에도, 해당 이미지 파일을 설명하기 위한 텍스트만을 이용하여 해당 웹 페이지나 이미지 파일에 태깅을 수행하는 수밖에 없었다.
그러나, 웹 페이지에 포함되는 이미지 파일로부터도 높은 가치를 갖는 태그 정보를 추출하고, 이러한 태그 정보를 이용하여 웹 페이지나 이미지 파일에 태그를 부여함으로써, 태그에 의한 검색을 위하여 보다 유리한 환경을 조성할 필요가 있게 되었다.
이와 관련하여, 다음과 같은 종래 기술이 참고될 수 있다.
먼저, 이미지 문서 또는 이미지 파일에 대해 문자 인식을 수행함으로써, 그 내용을 대표할 수 있는 데이터를 생성해내는 기술이 2004년 1월 8일 및 2007년 6월 28일에 각각 공개된 일본공개특허공보 제2004-005761 호 및 일본공개특허공보 제2007-165983 호에 개시되어 있다.
그러나, 일본공개특허공보 제2004-005761호에는 종이 문서 또는 도서를 스캐닝함으로써 이미지 데이터를 얻고, 그 이미지 데이터에 대하여 문자 인식을 수행하여 추출된 문자열 중 신뢰도 또는 연관도가 가장 높은 문자열을 키워드로 선택함으 로써, 해당 이미지에 대한 키워드를 자동으로 추출하는 기술이 개시되어 있을 뿐이고, 일본공개특허공보 제2007-165983호에는 영상 또는 화상 데이터에 포함된 문자열에 대한 정보 및 상기 문자열에 대한 문자 인식 정보를 포함하는 메타데이터(metadata)를 생성하여 저장하는 기술이 개시되어 있을 뿐이라서, 이러한 종래기술을 인터넷 상에 존재하는 방대한 양의 웹 페이지에 대하여 적용하는 것에는 한계가 있었던 것이 사실이다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 웹 페이지에 포함되는 이미지 파일에 대해 문자 판독을 수행하고, 판독된 문자로 이루어진 텍스트를 이용하여 태깅을 수행함으로써, 웹 검색의 품질을 향상시키는 것에 그 목적이 있다.
그리고, 본 발명은 웹 페이지에 포함되는 이미지 파일에 대한 검색 성능을 향상시킴으로써, 향후 이미지를 포함하는 웹 페이지의 활용도를 증가시키는 것에 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 방법으로서, (a) 웹 페이지에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 단계, (b) 상기 판독 결과를 파싱(parsing)하는 단계, 및 (c) 상기 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 웹 페이지 및 상기 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 웹 검색 서비스를 제공하는 방법으로서, 다수의 웹 서버로부터 다수의 웹 페이지를 크롤링하는 단계, 상기 다수의 웹 페이지 각각에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 단계, 상기 판독 결과 를 파싱하는 단계, 상기 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 각각의 웹 페이지 및 이에 포함되는 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 단계, 사용자 단말 장치로부터 검색 질의어를 입력 받는 단계, 및 상기 검색 질의어에 대응되는 태그 데이터를 검색하여 해당하는 웹 페이지를 상기 사용자 단말 장치로 전송하는 단계를 포함하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 장치로서, 웹 페이지에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 판독부, 상기 판독부에 의해 판독된 결과를 파싱하는 해석부, 및 상기 해석부에 의한 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 웹 페이지 및 상기 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 태깅부를 포함하는 장치가 제공된다.
본 발명의 또 다른 태양에 따르면, 웹 검색 서비스를 제공하는 장치로서, 다수의 웹 서버로부터 다수의 웹 페이지를 크롤링하는 크롤링부, 상기 다수의 웹 페이지 각각에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 판독부, 상기 판독부에 의한 판독 결과를 파싱하는 해석부, 상기 해석부에 의한 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 각각의 웹 페이지 및 이에 포함되는 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 태깅부, 및 사용자 단말 장치로부터 입력된 검색 질의어에 대응되는 태그 데이터를 검색하여 해당하는 웹 페이지를 상기 사용자 단말 장치로 전송하는 검색부를 포함하는 장치가 제공된다.
본 발명의 또 다른 태양에 따르면, 이 외에도, 본 발명에 따르면 웹 페이지에 포함되는 이미지 파일에 대해 문자 판독을 수행하고, 그 결과를 이용하여 태깅을 수행함으로써, 웹 검색의 품질을 향상시키기 위한 다른 방법, 장치 및 상기 방법들을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 이미지 파일을 포함하는 웹 페이지에 대한 웹 검색의 품질이 비약적으로 향상된다.
본 발명에 의하면, 유효하게 검색 가능한 웹 페이지의 수를 증가시킴으로써 웹 페이지의 활용도를 향상시킬 수 있게 되고, 더불어 웹 페이지의 정보적 가치가 높아지게 된다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명 은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라, 크롤링(crawling)된 웹 페이지에 포함되는 이미지 파일에 대해 문자 판독을 수행한 후, 그 결과를 이용하여 태깅을 수행하고, 이를 웹 검색에 활용하기 위한 전체 시스템의 개략적인 구성도이다.
도 1에 도시되는 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은, 인터넷, 인터넷에 접속 가능한 다수의 사용자 단말 장치(100), 사용자 단말 장치(100)로부터의 요청에 따라 웹 검색을 수행하는 서버(200) 및 서버(200)에 의한 웹 검색 시에 웹 컨텐츠를 제공하는 다수의 웹 서버(400)로 구성될 수 있다.
먼저, 인터넷은 유선 및 무선과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 발명에서 말하는 인터넷은 공지의 월드와이드웹(WWW; World Wide Web)일 수 있다.
사용자 단말 장치(100)는 사용자가 인터넷을 통하여 서버(200)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(100)로서 채택될 수 있다.
사용자는 사용자 단말 장치(100)에 의해 구동되는 웹 브라우저를 실행한 후, 소정의 식별자(예를 들면, URL)를 입력함으로써 서버(200)가 제공하는 웹 페이지에 접속할 수 있다.  서버(200)가 인터넷 검색 포털 사이트의 운영 서버인 경우, 사용자는 서버(200)가 제공하는 웹 페이지에 검색 질의어를 입력함으로써 웹 검색을 수행하고, 이에 따른 검색 결과를 서버(200)로부터 제공 받을 수 있다.
서버(200)는 인터넷을 통하여 사용자 단말 장치(100) 및 각종 웹 서버(400)와의 통신을 수행한다. 예를 들어, 서버(200)는 인터넷 검색 포털 사이트의 운영 서버일 수 있는데, 이때, 서버(200)는 웹 컨텐츠 검색 엔진(미도시됨)을 포함하여, 사용자가 입력한 검색 질의어를 질의어 버퍼(미도시됨)에 저장한 후 상기 검색 질의어에 해당하는 웹 컨텐츠를 검색하고, 그 검색 결과를 검색 결과 버퍼(미도시됨)에 저장한 후 사용자가 브라우징할 수 있도록 제공할 수 있다. 상기 검색 결과로서 제공되는 웹 컨텐츠는 이미지, 뉴스, 지식, 게임, 커뮤니티 등에 관한 다양한 정보일 수 있다. 물론, 필요에 따라, 웹 컨텐츠 검색 엔진, 질의어 버퍼 및 검색 결과 버퍼는 서버(200)가 아닌 다른 연산 장치나 기록 매체에 포함될 수도 있다.
한편, 서버(200)가 지원하는 웹 검색 방식은 사용자의 키워드 입력에 따라 웹 컨텐츠를 검색하는 통상의 키워드 검색 방식 또는 태그에 의한 검색 방식일 수 있다.
어느 경우에나, 서버(200)는 웹 컨텐츠 검색을 위해 다수의 웹 서버(400)가 제공하는 다수의 웹 페이지를 주기적으로 크롤링할 수 있다. 크롤링이란, 웹 서버(400)가 제공하는 웹 페이지들을 차례로 방문하여 그 웹 페이지들이 담고 있는 컨텐츠를 읽어 오는 것이다. 또한, 크롤링에는 일정한 기간을 주기로 하여 과거에 방문했던 웹 페이지들도 다시 방문함으로써 해당 페이지의 갱신 여부를 체크하는 것도 포함된다.
서버(200)는 이러한 크롤링을 수행하여 다수의 웹 서버(400)가 제공하는 다수의 웹 페이지가 담고 있는 웹 컨텐츠를 주기적으로 읽어온다. 이렇게 읽어 온 웹 컨텐츠는 일정한 형식으로 해석되고 해석 결과에 기초하여 태깅될 수 있다. 한편, 크롤링에 의해 수집되는 웹 컨텐츠 외에도 사용자의 활동에 의해 서버(200)에 업로드된 웹 컨텐츠에 대해서도 해석 및 태깅이 수행될 수 있다.
통상적으로, 웹 컨텐츠에 대한 태깅은 해당 컨텐츠가 담고 있는 텍스트 중 태깅에 필요한 정보를 추출함으로써 이루어진다. 이러한 추출에 의해 태그 데이터, 즉, 웹 컨텐츠에 대한 태그 데이터가 생성되고, 이 태그 데이터는 해당 웹 컨텐츠와 대응되어 데이터베이스에 저장된다. 이러한 태그 데이터는 사용자가 사용자 단말 장치(100)를 통해 입력한 키워드에 대응되어 웹 컨텐츠 검색에 이용된다.
그러나, 크롤링을 통해 읽어 들인 웹 컨텐츠나 서버(200)에 업로드된 웹 컨 텐츠는 텍스트뿐만 아니라 이미지 파일도 포함할 수 있다. 어떠한 경우에는 이러한 이미지 파일에 주요 정보가 담겨 있을 수도 있는데, 종래에는 이미지 파일을 제외한 텍스트에 의해서만 태깅이 이루어지기 때문에, 이미지 파일이 담고 있는 정보와 직접적으로 연관되는 태그를 생성하지 못하는 문제가 있었다. 따라서, 이미지 파일로부터 태그 정보를 직접 추출하여 태깅을 수행하는 것이 필요하다.
이를 위해, 본 발명의 일 실시예에 따른 서버(200)는 웹 컨텐츠에 대한 태깅을 수행하는 데에 있어서, 웹 컨텐츠가 담고 있는 이미지 파일에 포함되어 있는 텍스트로부터도 태깅에 필요한 정보를 추출한다. 즉, 웹 컨텐츠에 이미지가 포함되어 있는 경우, 이미지 파일 외의 텍스트만으로부터 태깅 정보를 추출하는 것이 아니라, 이미지 내에 포함되는 텍스트로부터도 태깅 정보 추출을 수행하는 것이다. 이를 위해서는, 서버(200)가 이미지 파일에 포함되어 있는 텍스트를 인식하고 판독해야 하며, 이렇게 판독된 텍스트에 대해서도 기존의 태깅과 동일한 작업, 즉, 태깅에 필요한 정보를 추출하여 태그 데이터를 생성하는 작업을 수행하여야 한다. 이에 대해서는 나중에 상세히 설명하도록 한다.
이렇게 서버(200)가 웹 컨텐츠에 포함되는 이미지에 대해 문자 판독을 수행하여 텍스트를 추출해내고, 이러한 텍스트를 사용하여 태깅함으로써 이미지의 내용과 직접적으로 연관된 태그 데이터를 생성해낼 수 있다.  이에 따라, 웹 컨텐츠 검색 시, 사용자가 원하는 정보가 이미지 파일에 포함된 형태로 존재한다고 할지라도 사용자에 의해 입력된 키워드에 대응되는 태그를 갖고 있는 이미지 파일(또는 이를 포함하는 웹 페이지)을 손쉽게 검색하여 웹 컨텐츠에 대한 검색 효율을 향상시킬 수 있다.
이하에서는, 이러한 서버(200)의 내부 구성 및 각 구성요소의 기능에 대하여 상세하게 살펴보기로 한다.
서버의 구성
도 2는 본 발명의 일 실시예에 따른 서버(200)의 내부 구성을 상세하게 도시한 도면이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 서버(200)는, 크롤링부(210), 문자 판독부(230), 해석부(250), 태깅부(270), 태그 데이터베이스(280) 및 검색부(290)를 포함할 수 있으며, 문자 판독부(230)는 다시 이미지 인식 및 분석부(231), 문자/기호 변환부(233) 및 마크업 언어 변환부(235)로 구성될 수 있음을 알 수 있다. 본 발명의 일 실시예에 따르면, 상기 구성요소들 중 적어도 일부는 사용자 단말 장치(100)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 서버(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 서버(200)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 크롤링부(210)는 다수의 웹 서버(400)로부터 제공되는 다수의 웹 페이지에 주기적으로 접속하여 해당 웹 페이지의 내용을 읽어 온다. 임의의 웹 서 버(400)가 제공하는 웹 페이지에 접속하여 크롤링하는 경우, 해당 웹 페이지로부터 링크되는 웹 페이지가 더 있는 경우에는, 이 링크된 웹 페이지에도 접속해야 해당 페이지의 내용을 읽어 올 수 있다. 크롤링부(210)는 크롤링하는 웹 페이지의 내용을 XML(eXtensible Markup Language) 또는 HTML(Hypertext Markup Language) 등의 마크업 언어의 형태로 변환하여 출력한다. 한편, 크롤링되는 웹 서버(400)의 범위 및 크롤링의 주기 등은 서버(200)를 운영하는 업체에 의해 정해질 수 있으며, 이러한 정보는 별도의 데이터베이스(미도시)에 저장되어 관리될 수 있다.
문자 판독부(230)는 크롤링부(210)에 의해 크롤링된 웹 페이지에 포함되는 이미지를 인식하고, 해당 이미지에 포함되어 있는 텍스트를 판독하여 XML 또는 HTML 등의 마크업 언어의 형태로 출력한다. 한편, 전술한 바와 같이, 크롤링부(210)에 의해 크롤링된 웹 페이지 외에도, 서버(200)에 업로드된 웹 컨텐츠에 대해서도 그에 포함되는 이미지를 인식하여 동일하게 처리할 수도 있다.
문자 판독부(230)의 이미지 인식 및 분석부(231)는 웹 페이지에 포함되는 이미지를 인식하여 이를 공지의 이미지 분석 알고리즘에 의하여 분석한다. 이와 관련하여, 본 발명이 속하는 기술분야의 당업자는 공지된 기술 문헌인 한국정보과학회의 "2007 한국컴퓨터종합학술대회 논문집 Vol. 34, No. 1(C)"에 개시된 문자 인식 기술 등을 참고할 수 있다.
문자/기호 변환부(233)는 이미지 인식 및 분석부(231)에 의하여 분석된 이미지에 포함되는 것으로 판단되는 문자 또는 기호를 추출하여 기계로 판독 가능한 문자 또는 기호로 변환한다. 이러한 문자/기호 변환에는 공지의 기술인 광학 문자 인식(OCR; Optical Character Recognition) 기술이 사용될 수 있다. 한편, 본 발명의 바람직한 실시예에 따르면, 문자/기호 변환부(233)는 분석된 특징 이미지와 문자 또는 기호 간의 유사도를 산출하여 최대치의 유사도를 보이는 문자 또는 기호로 해당 이미지를 변환할 수도 있다.
이러한 문자/기호 변환 시에는 문자 판독 데이터베이스(미도시됨)가 참조될 수 있다. 문자 판독 데이터베이스에는 이미지로 표현되는 텍스트의 문자 또는 기호에 대응하는 상용 문자 또는 상용 기호에 대한 정보와 함께, 언어, 폰트 정보 등이 더 저장되어 있을 수 있다. 문자/기호 변환부(233)는 이러한 문자 판독 데이터베이스를 참조하여, 해당 이미지로 표현되어 있는 텍스트를 각종 폰트로 표현되는 각 언어(예를 들면, 한국어, 영어 또는 일어)로 변환할 수 있다.
한편, 통상적인 문자 판독 시에는 다수의 무의미한 문자 또는 기호가 추출될 수 있는데, 본 발명에서는 이러한 무의미한 문자 또는 기호를 걸러내기 위한 필터링 과정이 추가로 수행될 수도 있다. 즉, 상용 문자 또는 상용 기호에 관한 정보가 저장되어 있는 상기 문자 판독 데이터베이스를 참조하여, 상용 문자 또는 상용 기호와 대응되지 않는 문자 또는 기호는 문자 판독 과정에서 삭제될 수도 있다. 이를 위해, 문자/기호 변환부(233) 내에는 문자/기호 필터링부(미도시됨)가 추가적으로 포함될 수도 있다.
그리고, 마크업 언어 변환부(235)는 문자/기호 변환부(233)에 의해 이미지로부터 판독된 텍스트에 관한 결과 정보를 XML 또는 HTML 등의 마크업 언어로 변환한다.
이렇게 마크업 언어로 변환되어 출력되는 문자 판독 결과는 해석부(250)로 전달된다.
한편, 크롤링부(210)에 의해 크롤링된 웹 페이지가 이미지 파일을 포함하지 않는 경우에는 문자 판독을 수행할 필요가 없기 때문에, 크롤링부(210)가 읽어 들여 마크업 언어의 형태로 변환한 웹 페이지가 바로 해석부(250)로 전달될 수 있다. 이를 위해, 크롤링부(210)와 문자 판독부(230) 사이에는 크롤링된 웹 페이지에 이미지 파일이 존재하는지 여부를 결정하여, 이미지 파일이 존재하는 경우에는 해당 웹 페이지를 문자 판독부(230)로 전달하고, 이미지 파일이 존재하지 않는 경우에는 해당 웹 페이지를 바로 해석부(250)로 전달하는 구성요소가 추가로 포함될 수도 있다.
해석부(250)는 문자 판독부(230)의 마크업 언어 변환부(235)가 이미지 내의 텍스트를 마크업 언어의 형태로 변환하여 출력한 텍스트 또는 크롤링부(210)에 의해 크롤링되어 마크업 언어로 변환된 텍스트를 수신하고 이를 파싱(parsing)한다. 즉, 웹 페이지의 이미지에 포함된 텍스트를 구분하여 추후의 태깅에 필요한 정보만 추출한다. 예를 들면, 추후의 태깅을 위해 이미지에 포함되는 텍스트를 의미 단위로 구분하거나, 텍스트 전체를 묶는 등의 과정이 파싱에 포함될 수 있다.
태깅부(270)는 해석부(250)에 의해 파싱된 웹 컨텐츠(즉, 웹 페이지 또는 이미지 파일)에 포함되는 텍스트 중 태깅에 필요한 정보만을 추출하여 하나 이상의 태그 데이터를 생성한다. 또한, 이렇게 생성된 태그 데이터와 해당 웹 컨텐츠를 연관시켜 태그를 생성하고 이를 테이블화한 후, 태그 데이터베이스(280)에 저장한 다. 태그는 웹 컨텐츠에 포함되는 단어, 문장 또는 기호일 수 있으며, 복수 개가 추출될 수도 있고, 해당 웹 컨텐츠가 포함하는 텍스트 전체의 내용이 될 수도 있다. 또한, 태그 정보로서, 해당 웹 컨텐츠로부터 소정 빈도수 이상 출현하는 단어, 텍스트 또는 기호가 이용될 수도 있다. 한편, 태그 정보는 해당 웹 컨텐츠가 갖는 식별자, 예를 들면, 이미지 파일의 URL의 적어도 일부일 수 있다.
이에 의해 태그 데이터베이스(280)에는 크롤링된 웹 페이지 또는 서버(200)에 사용자가 업로드한 웹 페이지와 그에 대응하는 태그와의 연관 관계에 대한 정보가 저장된다. 도 2에서는 태그 데이터베이스(280)가 서버(200) 내의 일 구성요소로서 도시되었으나, 태그 데이터베이스(280)는 당업자의 필요에 따라 서버(200)와 별개로 구성될 수도 있다
검색부(290)는 사용자 단말 장치(100)의 요청에 따라, 웹 컨텐츠에 대한 검색 작업을 수행한다. 예를 들면, 사용자가 사용자 단말 장치(100)를 이용하여 웹 브라우저를 기동하고, 서버(200)의 운영자가 운영하는 인터넷 검색 포털 사이트에 접속하여, 검색 질의어를 입력하면, 검색부(290)는 상기 검색 질의어에 대한 키워드 검색 또는 태그에 의한 검색을 수행한다. 검색부(290)에 의해 수행되는 것이 키워드 검색인 경우에 대하여는 그 설명을 생략하기로 한다.
한편, 태그에 의한 검색을 수행할 때에, 사용자가 검색 질의어를 입력하면, 검색부(290)는 태그 데이터베이스(280)를 참조하여 해당 검색 질의어에 대응하는 태그 데이터를 검색해내고, 검색된 태그 데이터를 기초로 하여, 대응하는 웹 컨텐츠를 추출하여 사용자 단말 장치(100)로 전송한다. 한편, 이렇게 웹 컨텐츠를 사 용자 단말 장치(100)에 직접적으로 전송하는 것 외에, 웹 컨텐츠에 대한 링크 정보를 포함하는 웹 페이지를 제공함으로써 태그에 의한 검색을 지원할 수도 있다.
이하에서는, 서버(200)가 다수의 웹 서버(400)가 제공하는 다수의 웹 페이지를 크롤링하여 크롤링된 이미지들에 대해 문자 판독을 수행하고, 해당 웹 페이지들에 대하여 태깅을 수행하는 과정에 대해 설명하기로 한다.
크롤링된 웹 페이지에 대한 태깅 과정
도 3은 본 발명의 일 실시예에 따라 서버(200)가 크롤링된 웹 페이지에 포함되는 이미지에 대해 문자 판독을 수행하고, 해당 웹 페이지에 태깅을 수행하는 과정을 설명하는 흐름도이다.
먼저, 서버(200)의 크롤링부(210)는 다수의 웹 서버(400)가 제공하는 웹 페이지를 주기적으로 크롤링한다(S310). 전술한 바와 같이, 크롤링된 웹 페이지의 내용은 XML 또는 HTML 등의 마크업 언어의 형태로 출력된다.
문자 판독부(230)는 크롤링부(210)에 의해 크롤링된 웹 페이지에 포함되는 이미지를 인식하고, 해당 이미지에 포함되어 있는 텍스트를 판독하여 XML 또는 HTML 등의 마크업 언어의 형태로 출력한다. 먼저, 문자 판독부(230)의 이미지 인식 및 분석부(231)는 웹 페이지에 포함되는 이미지를 인식하여 이를 공지의 이미지 분석 알고리즘에 의하여 분석한다(S320). 다음으로, 문자/기호 변환부(233)는 상기 분석된 이미지에 포함되는 것으로 판단되는 문자 또는 기호를 추출하여 기계로 판독 가능한 문자 또는 기호로 변환한다(S330). 그 후, 마크업 언어 변환부(235)는 문자/기호 변환부(233)에 의해 이미지로부터 판독된 텍스트에 관한 결과 정보를 XML 또는 HTML 등의 마크업 언어로 변환한다(S340). 이렇게 마크업 언어로 변환되어 출력된 문자 판독 결과는 해석부(250)로 전달된다.
해석부(250)는 문자 판독부(230)의 마크업 언어 변환부(235)가 마크업 언어의 형태로 변환하여 출력한 웹 컨텐츠 또는 크롤링부(210)에 의해 크롤링되어 마크업 언어의 형태로 변환된 웹 컨텐츠의 내용을 파싱한다(S350). 즉, 전술한 바와 같이, 웹 컨텐츠로부터 추후의 태깅에 필요한 정보만을 추출한다.
다음으로, 태깅부(270)는 해석부(250)에 의해 파싱된 웹 컨텐츠에 포함되는 텍스트 중 태깅에 필요한 정보만을 추출하여 하나 이상의 태그 데이터를 생성한 후, 이를 해당 웹 컨텐츠와 대응시키고 그 연관 관계에 대한 정보를 태그 데이터베이스(280)에 저장한다(S360).
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특 별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일 실시예에 따라, 크롤링된 웹 페이지에 포함되는 이미지 파일에 대해 문자 판독을 수행한 후, 그 결과를 이용하여 태깅을 수행하고, 이를 웹 검색에 활용하기 위한 전체 시스템의 개략적인 구성도이다.
도 2는 본 발명의 일 실시예에 따른 서버의 내부 구성을 상세하게 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따라 서버가 크롤링된 웹 페이지에 포함되는 이미지에 대해 문자 판독을 수행하고, 해당 웹 페이지에 태깅을 수행하는 과정을 설명하는 흐름도이다.
<주요 도면 부호에 관한 간단한 설명>
100: 사용자 단말 장치
200: 서버
400: 웹 서버
210: 크롤링부
230: 문자 판독부
250: 해석부
270: 태깅부
280: 태그 데이터베이스
290: 검색부
231: 이미지 인식 및 분석부
233: 문자/기호 변환부
235: 마크업 언어 변환부

Claims (17)

  1. 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 방법으로서,
    (a) 웹 페이지에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 단계,
    (b) 상기 판독 결과를 파싱(parsing)하는 단계, 및
    (c) 상기 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 웹 페이지 및 상기 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 단계를 포함하되,
    상기 태그 정보는 상기 파싱에 따라 추출되는 텍스트 중 가장 높은 빈도로 나타나는 텍스트를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    (a) 단계는,
    상기 이미지를 인식하는 단계,
    상기 인식된 이미지를 분석하여 상기 이미지 상의 문자 및/또는 기호를 이에 대응하는 상용 문자 및/또는 상용 기호로 변환하는 단계, 및
    상기 상용 문자 및/또는 상기 상용 기호를 마크업 언어로 변환하는 단계
    를 포함하는 방법.
  3. 제2항에 있어서,
    상기 마크업 언어는 XML(eXtensible Markup Language) 또는 HTML(Hypertext Markup Language)인 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 태그 정보는 상기 이미지를 포함하는 파일의 URL(Uniform Resource Locator)의 적어도 일부를 포함하는 방법.
  6. 다수의 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 방법으로서,
    다수의 웹 서버로부터 다수의 웹 페이지를 크롤링(crawling)하는 단계, 및
    상기 다수의 웹 페이지 각각에 대하여, 제1항 내지 제3항, 및 제5항 중 어느 한 항에 따른 (a) 단계 내지 (c) 단계를 수행하는 단계를 포함하되,
    상기 태그 정보는 상기 파싱에 따라 추출되는 텍스트 중 가장 높은 빈도로 나타나는 텍스트를 포함하는 것을 특징으로 하는 방법.
  7. 웹 검색 서비스를 제공하는 방법으로서,
    다수의 웹 서버로부터 다수의 웹 페이지를 크롤링하는 단계,
    상기 다수의 웹 페이지 각각에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 단계,
    상기 판독 결과를 파싱하는 단계,
    상기 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 각각의 웹 페이지 및 이에 포함되는 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 단계,
    사용자 단말 장치로부터 검색 질의어를 입력 받는 단계, 및
    상기 검색 질의어에 대응되는 태그 데이터를 검색하여 해당하는 웹 페이지를 상기 사용자 단말 장치로 전송하는 단계를 포함하되,
    상기 태그 정보는 상기 파싱에 따라 추출되는 텍스트 중 가장 높은 빈도로 나타나는 텍스트를 포함하는 것을 특징으로 하는 방법.
  8. 웹 페이지에 포함되는 이미지에 관하여, 웹 검색을 위한 태깅을 수행하기 위한 장치로서,
    웹 페이지에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 판독부,
    상기 판독부에 의해 판독된 결과를 파싱하는 해석부, 및
    상기 해석부에 의한 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 웹 페이지 및 상기 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 태깅부를 포함하되,
    상기 태그 정보는 상기 파싱에 따라 추출되는 텍스트 중 가장 높은 빈도로 나타나는 텍스트를 포함하는 것을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 판독부는,
    상기 이미지를 인식하고 분석하는 이미지 인식 및 분석부,
    상기 이미지 상의 문자 및/또는 기호를 이에 대응하는 상용 문자 및/또는 상용 기호로 변환하는 문자/기호 변환부, 및
    상기 상용 문자 및/또는 상기 상용 기호를 마크업 언어로 변환하는 마크업 언어 변환부
    를 포함하는 장치.
  10. 제9항에 있어서,
    상기 마크업 언어는 XML 또는 HTML인 장치.
  11. 삭제
  12. 제8항에 있어서,
    상기 태그 정보는 상기 이미지를 포함하는 파일의 URL의 적어도 일부를 포함하는 장치.
  13. 제8항에 있어서,
    다수의 웹 서버로부터 다수의 웹 페이지를 크롤링하는 크롤링부를 더 포함하는 장치.
  14. 웹 검색 서비스를 제공하는 장치로서,
    다수의 웹 서버로부터 다수의 웹 페이지를 크롤링하는 크롤링부,
    상기 다수의 웹 페이지 각각에 포함되는 이미지 상의 문자 및/또는 기호를 판독하는 판독부,
    상기 판독부에 의한 판독 결과를 파싱하는 해석부,
    상기 해석부에 의한 파싱에 따라 태깅에 필요한 태그 정보를 추출하고, 상기 각각의 웹 페이지 및 이에 포함되는 이미지 중 적어도 하나에 상기 태그 정보를 대응시켜 태그 데이터를 부여하는 태깅부, 및
    사용자 단말 장치로부터 입력된 검색 질의어에 대응되는 태그 데이터를 검색하여 해당하는 웹 페이지를 상기 사용자 단말 장치로 전송하는 검색부를 포함하되,
    상기 태그 정보는 상기 파싱에 따라 추출되는 텍스트 중 가장 높은 빈도로 나타나는 텍스트를 포함하는 것을 특징으로 하는 장치.
  15. 제14항에 있어서,
    상기 태깅부에 의해 부여된 태그 데이터를 저장하는 태그 데이터베이스를 더 포함하는 장치.
  16. 제1항 내지 제3항, 제5항, 및 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
  17. 제6항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
KR1020080033925A 2008-04-11 2008-04-11 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체 KR100940365B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080033925A KR100940365B1 (ko) 2008-04-11 2008-04-11 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체
JP2009097249A JP2009259248A (ja) 2008-04-11 2009-04-13 ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080033925A KR100940365B1 (ko) 2008-04-11 2008-04-11 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020090121620A Division KR20090130364A (ko) 2009-12-09 2009-12-09 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20090108486A KR20090108486A (ko) 2009-10-15
KR100940365B1 true KR100940365B1 (ko) 2010-02-04

Family

ID=41386515

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080033925A KR100940365B1 (ko) 2008-04-11 2008-04-11 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체

Country Status (2)

Country Link
JP (1) JP2009259248A (ko)
KR (1) KR100940365B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014200228A1 (ko) * 2013-06-10 2014-12-18 Lee Yong Jae 통합 데이터 객체 관리 시스템 및 그 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4637969B1 (ja) 2009-12-31 2011-02-23 株式会社Taggy ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN103778158A (zh) * 2012-10-26 2014-05-07 苏州精易会信息技术有限公司 一种基于图片方式显示条形码的html标签
WO2015016133A1 (ja) * 2013-07-30 2015-02-05 日本電信電話株式会社 情報管理装置及び情報管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060019862A (ko) * 2004-08-30 2006-03-06 에스케이 텔레콤주식회사 이동통신 단말기의 브라우저에서 지원되지 않는 이미지 및태그 처리를 위한 웹 문서 변환 방법
KR20070067452A (ko) * 2005-12-23 2007-06-28 원종우 이미지 파일에 부가정보를 삽입하는 방법 및 장치와 이를위한 기록매체
KR20080030196A (ko) * 2006-09-29 2008-04-04 한지희 인터넷 웹페이지의 태그 방법 및 태그 검색 시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04346189A (ja) * 1991-05-23 1992-12-02 Fuji Xerox Co Ltd 文字列種類識別装置
JPH10334189A (ja) * 1997-06-05 1998-12-18 Nec Eng Ltd 光学的文字読取装置及びコンピュータを光学的文字読取装置として機能させるためのプログラムを記録した記録媒体
KR20020006223A (ko) * 2000-07-11 2002-01-19 임무혁 자동 색인 로봇 시스템 및 이를 이용한 처리 방법
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
JP2002297661A (ja) * 2001-03-30 2002-10-11 Tokyo Electric Power Co Inc:The Web検索装置
JP2004240692A (ja) * 2003-02-05 2004-08-26 Ricoh Co Ltd 画像検索サーバシステム、プログラムおよび記録媒体
JP2005107931A (ja) * 2003-09-30 2005-04-21 Ricoh Co Ltd 画像検索装置
JP4313738B2 (ja) * 2004-08-18 2009-08-12 日本電信電話株式会社 画像検索装置および方法、そのプログラム及び記録媒体
JP2006301956A (ja) * 2005-04-20 2006-11-02 Toshiba Corp 電子撮影装置
JP2007052581A (ja) * 2005-08-17 2007-03-01 Sony Corp メタデータ生成装置、メタデータ生成システム、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラム
KR100641791B1 (ko) * 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060019862A (ko) * 2004-08-30 2006-03-06 에스케이 텔레콤주식회사 이동통신 단말기의 브라우저에서 지원되지 않는 이미지 및태그 처리를 위한 웹 문서 변환 방법
KR20070067452A (ko) * 2005-12-23 2007-06-28 원종우 이미지 파일에 부가정보를 삽입하는 방법 및 장치와 이를위한 기록매체
KR20080030196A (ko) * 2006-09-29 2008-04-04 한지희 인터넷 웹페이지의 태그 방법 및 태그 검색 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014200228A1 (ko) * 2013-06-10 2014-12-18 Lee Yong Jae 통합 데이터 객체 관리 시스템 및 그 방법
US10853330B2 (en) 2013-06-10 2020-12-01 Yong Jae Lee Unified data object management system and the method
US11741057B2 (en) 2013-06-10 2023-08-29 Yong Jae Lee Unified data object management system and the method

Also Published As

Publication number Publication date
KR20090108486A (ko) 2009-10-15
JP2009259248A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
US8161059B2 (en) Method and apparatus for collecting entity aliases
US8326860B2 (en) Indexing and searching product identifiers
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US10210222B2 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US7310633B1 (en) Methods and systems for generating textual information
US20090019015A1 (en) Mathematical expression structured language object search system and search method
US20110137943A1 (en) Apparatus for deciding word-related keywords, and method and program for controlling operation of same
JP2009163743A (ja) 画像処理装置および画像処理方法
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
US20100005060A1 (en) Systems and Methods for Providing Hi-Fidelity Contextual Search Results
US20050187899A1 (en) Structured document processing method, structured document processing system, and program for same
KR100940365B1 (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP2007128367A (ja) 情報検索ノウハウ管理システム
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치
KR100933269B1 (ko) 색상 키워드를 이용한 검색 방법 및 시스템
CN107766237A (zh) 网络爬虫的测试方法、装置、服务器和存储介质
KR101117171B1 (ko) 검색 서비스를 위해 데이터를 생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP5610215B2 (ja) 検索装置、検索システム、検索方法及び検索プログラム
JP5564442B2 (ja) 文章検索装置
KR100569151B1 (ko) 웹페이지 변환장치 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
A107 Divisional application of patent
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130111

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 11