KR20010076995A - 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템 - Google Patents

네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템 Download PDF

Info

Publication number
KR20010076995A
KR20010076995A KR1020000004487A KR20000004487A KR20010076995A KR 20010076995 A KR20010076995 A KR 20010076995A KR 1020000004487 A KR1020000004487 A KR 1020000004487A KR 20000004487 A KR20000004487 A KR 20000004487A KR 20010076995 A KR20010076995 A KR 20010076995A
Authority
KR
South Korea
Prior art keywords
data
site
search
access procedure
sites
Prior art date
Application number
KR1020000004487A
Other languages
English (en)
Inventor
전윤호
Original Assignee
전윤호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전윤호 filed Critical 전윤호
Priority to KR1020000004487A priority Critical patent/KR20010076995A/ko
Publication of KR20010076995A publication Critical patent/KR20010076995A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Storage Device Security (AREA)

Abstract

하나 이상의 사이트를 포함하는 네트워크에서 타인의 권리를 침해하는 행위와 관련되는 데이터를 검색하기 위한 시스템이 개시되었다. 이 검색 시스템은 기설정된 접근 절차에 따라 네트워크상의 사이트들에 접근하여, 상기 각각의 사이트의 데이터가 타인의 권리를 침해하는 행위와 관련되는 데이터인지 판단하기 위한 검색부와, 상기 사이트의 데이타가 타인의 권리를 침해하는 행위와 관련되는 데이터인 경우 상기 사이트에 상기 데이터가 소정의 시간에 존재했다는 증거를 확보하기 위한 증거확보부를 포함한다.
이와 같은 검색 시스템에서는 표준화된 액세스 절차 데이터베이스를 사용하여 다양한 사이트에 접근함으로써 기존의 검색 엔진이 검색하지 못했던 범위까지 자동으로 검색이 가능하다.

Description

네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템{SYSTEM FOR DETECTING AND OBTAINING EVIDENCE OF INFRINGING DATA ON NETWORK}
본 발명은 인터넷이나 BBS(Bulletin Board System)등의 전자적 통신 수단을 통해 타인의 권리를 침해하는 데이타가 배포되는 경우 이를 검출하고, 나아가 침해행위의 증거를 확보할 수 있는 시스템에 관한 것이다.
근래에 많은 상거래 행위, 정보의 교류 등 인간간의 상호교류가 전자적인 통신 수단, 즉 인터넷 및 각종 BBS등을 통해 이루어지고 있다. 소위 사이버스페이스(cyberspace)에서의 각종 행위가 사람들의 생활의 큰 부분을 차지하게 됨에 따라 사이버스페이스에서 일어나는 각종 범죄 행위도 늘어나고 있다. 특히, 전자적인 형태의 데이터는 쉽게 복사, 전송된다는 특성에 따라 웹페이지, FTP 서버, BBS나 유즈넷 뉴스그룹(USENET newsgroup)의 포스팅 등을 통한 음악(예를 들어 MP3 화일), 출판물, 사진, 컴퓨터 프로그램, 멀티미디어 저작물 등의 각종 저작물의 침해행위가 빈번히 발생한다. 일단 한사람이 타인의 저작물을 웹사이트에 올려놓으면 순식간에 여러사람들이 이를 복사하여 자신들의 웹사이트에 올리기 때문에 원래의 웹사이트에서 저작물을 삭제한다고 하여도 연쇄적으로 일어나는 저작권의 침해행위를 막기는 어려운 일이다. 또한, 타인의 명예를 훼손하거나, 타인에게 경제적인 피해를 줄 수 있는 내용의 정보를 여러 사람에게 배포하는 일도 종종 발생한다. 예를 들어 연예인의 사생활에 대한 정보나, 특정회사의 제품에 대한 근거없는 비방을 담는 통신 내용을 웹사이트에 올리거나 BBS 등을 통해 배포하면 적은 비용으로도 많은 사람에게 전달되어 그 대상이 되는 사람이나 회사는 단기간에 큰 피해를 보게 된다.
네트워크상에서 광범위하게 일어나는 저작권 침해행위에 대해서는 음반 저작물 및 영상 저작물 등을 암호화(encryption)하여 보급함으로써 불법 복제를 막으려는 방법도 여러번 시도되어 왔다. 그러나, 암호화된 저작물은 다양한 재생 장치와의 호환성이 결여되므로 저작물의 시장이 한정되고, 암호해독(decryption)을 위해 별도의 하드웨어가 필요하거나 처리능력이 증가되어야 하므로 재생 장치가 커지고 전력 소비가 늘어나며 가격 또한 증가하게 된다는 문제점이 있다. 또한, 무조건 복제를 불가능하게 하는 경우 정당하게 저작물을 획득한 사람도 다른 장치에서 재생하거나 백업을 할 수 없는 등 그 권리가 지나치게 제한된다. 또한 이와 같은 인위적인 암호화는 필연적으로 해커 등에 의해 깨지게 되고 그 경우 권리자는 대응할 방법 없이 큰 피해를 얻게 된다. 따라서, 암호화에 의한 저작물 등의 보호에는 한계가 있다.
이런 사이버스페이스에서의 타인의 권리 침해 행위를 권리자나 국가기관에서 모니터링하는 것이 가능하기는 하지만 방대한 분량의 웹페이지, BBS 포스팅 등을 사람이 일일이 검색하는 것은 불가능하거나 매우 비효율적인 일이다. 종래에 인터넷 등에서 소정의 정보를 찾기 위한 검색 시스템(예를 들어 www.altavista.com. www.yahoo.com 등의 웹사이트에서 제공하는 검색 기능)은 많이 존재한다. 그러나, 이와 같은 종래의 검색 시스템은 주로 단순한 키워드 검색방식을 사용하고 있고,웹사이트의 검색만이 가능하므로 타인의 권리침해행위를 찾아내는데는 적절하지 않다.
따라서 본 발명의 목적은 네트워크상에서 타인의 권리를 침해하는 데이타를 검색하는 시스템을 제공하는데 있다.
본 발명의 다른 목적은 타인의 권리를 침해하는 데이터를 네트워크상의 소정의 사이트에서 발견한 경우, 이 데이터의 배포 경로 및 데이터의 내용을 타인의 권리침해의 증거로 확보하기 위한 시스템을 제공하는데 있다.
본 발명의 또 하나의 목적은 네트워크상의 다양한 종류의 사이트에 표준화된 엑세스 절차를 사용하여 접근하는 방법을 제공하는데 있다.
도 1은 본 발명의 검색 및 증거확보 방법을 개괄적으로 도시하는 도면.
도 2는 본 발명의 검색 및 증거확보 시스템의 일실시예의 개략도.
도 3는 대상 사이트에 접근하는 단계(S100)을 상세히 도시하는 도면.
도 4은 본 발명의 검색 시스템에서 찾아낸 후보 데이터가 타인의 권리를 침해하고 있는 데이터인지 여부를 판단하는 방법(S200)을 도시하는 도면.
도 5는 찾아낸 데이터가 타인의 권리를 침해하는 데이터인 경우 수행되는 과정(S300)을 상세히 도시한 도면.
도 6는 본 발명의 검색 및 증거확보 시스템의 다른 실시예의 개략도.
도 7은 본 발명의 검색 및 증거확보 시스템의 또 다른 실시예의 개략도.
도 8은 도 7의 원격검색 시스템을 상세히 도시하는 도면.
<도면의 주요 부분에 대한 부호의 설명>
100 : 네트워크
200 : 검색 시스템
200' : 주검색 시스템
202, 204, 206 : 원격 검색 시스템
300, 300' : 증거 확보 시스템
본 발명은 예를 들어 자신이 권리를 가지고 있는 데이터의 내용에 대해 알려주면서 자신의 권리를 침해하는 데이터를 검색하여 줄 것을 의뢰한 "의뢰자"의 요청에 따라 네트워크상의 데이터들을 검색하고 침해 행위를 발견한 경우 이에 대한 증거를 확보하기 위한 시스템에 관한 것이다. 본 명세서에서 네트워크라 함은 WWW(World Wide Web)의 정적 페이지(static page) 및 데이터 베이스 등에 의하여 동적으로 생성되는 페이지, USENET 뉴스그룹, 무명 FTP 사이트(anonymous FTP site), 텔넷(telnet) 또는 모뎀으로 연결되는 BBS 등 타인의 권리를 침해하는 데이터가 공개, 전파될 수 있는 경로를 통칭하는 것이다. 또한, 본 발명에서 탐색 목표는 타인(해당 데이터를 네트워크상에 업로드(upload)시킨 사람이 아닌 제3자)의권리를 침해하거나, 타인에게 손실을 줄 수 있는 모든 내용을 포함하는 것으로, 예를 들어 타인이 저작권자인 텍스트, 이미지, 음악, 비디오, 로고 및 이에 관련되는 정보(예를 들어 어느 사이트에 가면 MP3화일을 무료로 다운로드받을 수 있다는 정보), 타인의 사생활을 침해하거나 타인을 비방하는 내용, 타인의 제품에 대한 비방 등이 탐색 목표에 포함된다.
도 1은 본 발명의 검색 및 증거 확보 시스템에서, 네트워크상에 공개되어 있는 탐색 목표를 찾아내기 위한 과정을 도시한 흐름도이다. 먼저, 네트워크상의 "대상 사이트"에 접근하는 단계(S100)를 포함한다. 사이트라 함은 전술한 바와 같이 웹 페이지, USENET 뉴스 그룹, BBS의 자료실 등 타인의 권리를 침해하는 데이터가 공개, 전파될 수 있는 네트워크상의 단위 장소를 의미한다. 본 발명의 검색 시스템에서 네트워크상의 대상 사이트에 접근하는 방법은, 다른 조작없이 접근이 가능한 URL(Uniform Resource Locators)들만 검색하는 기존의 검색 엔진(웹 크롤러(web crawler), 스파이더(spider), 인포봇(infobot) 등의 명칭으로 불리는 종래의 검색 엔진)들과는 커다란 차이가 있다. 이와 같은 종래의 웹 페이지 검색 엔진은 일반적인 누구에게나 엑세스가 가능한 웹사이트만을 검색하며 것이며, 사용자 등록을 하고 비밀번호를 받은 사람에게만 접근을 허락하는 웹 사이트나, BBS, FTP 사이트 및 뉴스그룹 등에 있는 정보는 검색하지 못한다. 특히, MP3, 음란성 사진 등의 저작물은 소정의 사용자에게만 접근을 허락하는 상용 사이트나 일반인에게는 쉽게 검색되지 않는 바이너리 뉴스그룹이나 FTP 사이트에 올라와 있을 가능성이 더 많으므로 이와 같은 사이트들을 검색하는 것은 본 발명의 시스템의 기능 중매우 중요한 부분이다. 또한, 종래의 검색 엔진은 주로 텍스트에 대한 것이며, 바이너리 화일(음악 및 영상 등은 바이너리 화일로 되어 있음)의 내용을 검색할 수도 없다.
본 발명의 검색 방법에서는 반복적인 검색의 효율을 높이기 위하여, 이와 같이 다양한 사이트에의 접근 방법을 표준화된 형식으로 표현하는 "엑세스 절차 아이템"을 사용한다. 엑세스 절차 아이템은 본 발명의 시스템이 소정의 사이트의 데이터에 접근한 과정을 표준화된 프로토콜로 표현하여 저장한 것이다. 본 발명의 검색 시스템에서는 검색하려는 사이트들에 대한 엑세스 절차 아이템을 다수 포함하는 데이터베이스로 구축하여 검색시 이용한다.
대상 사이트에 접근한 후에는 대상 사이트의 데이터를 본 발명의 시스템으로 전송하고, 이를 해석(parse)하여, 타인의 권리를 침해하는 데이터가 있는지 판단하는 단계(S200)가 수행된다. 이 단계에서 판단 대상이 되는 데이타는 대상 사이트에 공개된 텍스트 데이터 뿐 아니라, 오디오 화일(mp3, wave 등), 비디오 화일(mpeg, avi 등), 이미지 화일(jpeg, gif 등)등 타인의 권리를 침해할 가능성이 있는 모든 종류의 데이터가 포함된다. 타인의 권리를 침해하는 데이터인지 판단하기 위하여 대상 사이트로부터 전송된 데이터는 먼저 몇 가지의 유형으로 분류되고 각 유형에 따라 미리 저장되어 있는 데이터베이스를 참조하여 침해 데이터인지 구별된다.
단계(S200)에서 특정 사이트의 데이터가 타인의 권리를 침해하는 것으로 판단되면 다음은 이에 대한 증거를 확보하는 단계(S300)가 수행된다. 네트워크 상의소정의 사이트의 데이터를 사이트의 운영자가 삭제해 버린 경우, 과거에 데이터가 공개되었었다는 사실을 증명하기는 용이하지 않다. 따라서, 침해자가 침해가 발각된 사실을 안 경우 또는 침해 행위로 충분한 수익을 올린 후 안전을 목적으로 데이터를 완전히 삭제한 경우, 과거의 침해 사실을 증명하여 정당한 권리자가 손해배상을 받도록 해 주기 위한 방법이 요구된다. 침해 데이터의 존재에 대한 증거를 확보하는 방법으로는 신뢰성을 인정받을 수 있는 제3자에게 침해 데이터의 존재에 대한 증거의 확보를 받는 것이 있다. 본 발명의 검색 시스템에서 침해 데이터가 존재하는 사이트의 액세스 방법 아이템을 검색 시스템과 독립적인 제3자에게 전달하면, 이 제3자는 이를 이용하여 문제의 침해 데이터에 접근하고, 본 발명의 검색 시스템이 찾아낸 침해 데이터가 특정 사이트에 어느 시점에 존재한다는 사실과 데이터의 내용을 데이터 화일 및 프린트 출력 등으로 남겨 놓는다.
침해 데이터에 대해 증거를 확보한 후 또는 증거 확보 절차와 별도로 침해 데이터의 성격 등에 따라 적절한 조치를 취한다(S300). 적절한 조치에는 여러 가지가 있을 수 있는데 예를 들어 침해 데이터의 적법한 권리자에게 침해사실을 통보해주거나, 이 데이터가 있는 사이트의 ISP(Internet Service Provider) 등에게 협조를 구하여 해당 사이트를 닫도록 하는 것 등이 있을 것이다. 어떤 조치를 취할지 결정하기 위해서는 적절한 분야의 전문가가 이를 판단하거나 또는 권리자의 요청에 따라 미리 결정되어 있는 조치를 취할 수도 있다. 예를 들어 음악 화일 등의 경우 잠깐만 침해 사이트를 열어 놓아도 이 사이트로부터 전송받은 데이터를 다시 타인에게 전송해주는 수많은 사이트가 생겨나므로 침해 행위를 신속하게 중단시킬필요가 있으므로 침해발견 즉시 ISP 등을 통해 사이트 폐쇄를 요청할 수 있다. 좀더 신중한 판단을 요하거나 급박하게 처리되어야 할 필요가 없는 경우 등은 권리자 등에게 통보하는 조치를 취할 것이다.
도 2에는 본 발명의 검색 및 증거 확보 시스템의 개략적 구조가 도시되어 있다.
네트워크(100)상의 수많은 사이트들을 본 발명의 검색 시스템(200)에서 검색하여 타인의 권리를 침해하는 데이터를 포함하는 사이트를 발견한 경우 이 데이터에 접근한 경로를 나타내는 엑세스 절차 아이템 및 기타 부가 정보를 증거 확보 시스템(300)에 전달한다. 증거 확보 시스템(300)에서는 이 수신받은 엑세스 절차 아이템을 이용하여 네트워크상의 문제의 사이트에 접근하고 상기 침해 데이터의 존재 사실 및 내용을 증명할 수 있는 증거를 확보한다. 이를 위하여 검색 시스템(200) 및 증거 확보 시스템은(300) 모두 엑세스 절차 아이템에 따라 네트워크의 소정 사이트에 접근하여 데이터를 전송받기 위한 검색 로봇(210, 310)을 포함한다. 또한, 검색 시스템은 각 사이트에 대한 접근 절차를 포함하는 엑세스 절차 데이터베이스(220) 및 침해데이타를 발견한 경우 침해 데이터 및 관련 데이터를 저장하기 위한 침해기록 데이터베이스(230)를 포함한다. 또한, 검색 시스템이 네트워크에서 찾고자 하는 침해 데이터의 내용에 관한 정보를 각 침해 데이터의 유형별로 담고 있는 키워드 DB(240), 텍스트 DB(250), 시그너쳐 DB(signature database, 260), 오디오 DB(270) 등도 포함한다.
이하에서는 도 1을 참조하여 간략히 설명된 각 단계들을 상세히 살펴보기로한다.
도 3은 본 발명의 시스템에서 여러 종류의 사이트의 자료에 접근하는 단계(S100)를 구현하는 시스템이 상세하게 도시되어 있다. 종래의 웹사이트 검색 시스템과 본 발명의 검색 및 증거 확보 시스템의 또 하나의 큰 차이점은 검색이 되는 대상 사이트가 검색되기를 희망하여 이에 협조하는지 또는 검색되지 않기를 희망하여 이를 방해하려 하는지 하는 점에 있다. 일반적인 웹 사이트들의 운영자는 검색 엔진에 되도록 많이 검색되어 많은 검색 사이트에서 소개되는 것을 희망한다. 이를 위하여 적절한 키워드를 메타태그(metatag)에 삽입하거나, 다른 웹사이트에 자신의 웹 사이트를 링크시켜 놓거나, 야후 등의 검색 사이트에 등록 시켜 놓는 등 자신의 웹 사이트를 다수의 사용자에게 노출시키기 위한 여러 가지 방법을 사용한다. 그러나, 타인의 권리를 침해하는 사이트를 만든 사람은 본 발명의 검색 시스템에 의해 검색되기를 원하지 않을 것이므로 본 검색 시스템이 자신의 데이터를 찾지 못하게 하기 위한 여러 가지 접근 방해(또는 회피) 방법을 사용할 것이다. 그러나 이런 사이트들도 일반 개인 사용자들의 접근을 목적으로 하여 만들어진 것이므로, 본 발명의 검색 시스템에서 일반 개인 사용자들이 접근하는 것과 유사하는 방식으로 사이트에 접근한다면 상기 방해 또는 회피 방법으로 검색되는 것을 막기 어렵다. 이하에서는 이를 위한 구체적인 방안들에 대해서도 설명한다.
본 발명의 검색 시스템의 일부인 검색로봇(110)은 엑세스 절차 데이터베이스로부터 엑세스 절차 아이템을 가져와(retrieve) 이 아이템에 정의된 접근 방법으로 각 사이트들에 접근한다. 이때 각 사이트에 대한 마지막 접근 시간 및 요구되는접근 주기를 참조하여 다음에 접근할 사이트를 결정하게 된다. 사이트에 접근시는 하나의 IP 어드레스로 모든 사이트에 반복하여 접근을 시도하는 것이 아니라 매번 변하는 IP 어드레스를 사용하여 사이트에 접근한다. 이는 하나의 IP 어드레스만 사용하는 경우, 이 IP 어드레스가 침해 데이터를 검색하는 시스템이 사용하는 어드레스라는 것이 알려지면 침해 사이트에 접근을 시도할 때 접근이 거부될 가능성이 많기 때문에 접근하는 시스템이 본 발명의 검색 시스템인지 여부를 검색되는 사이트 측에서 알지 못하게 하기 위한 것이다.
액세스 방법 아이템에 정의된 사이트들에의 접근 방법은 다양하다. 사용자 이름과 비밀번호를 입력하여야 접근이 가능한 웹사이트, 상용 BBS, 상용 뉴스그룹 등의 경우는 미리 등록된 사용자 이름과 비밀번호를 입력하여 접근한다. 또한, 특정 버튼을 누르거나 명령어를 입력하여야 접근이 가능한 사이트는 기설정된 세팅에 따라 버튼이나 명령어의 입력을 키보드 대신 검색 시스템에서 자동으로 수행하거나(엑세스 절차 아이템에 의해), 또는 엑세스 절차 아이템이 아직 정의되어 있지 않은 사이트거나 접근 방법을 엑세스 절차 아이템으로 완전히 정의하기 어렵고 오퍼레이터의 개입이 있어야만 접근이 되는 사이트의 경우는 오퍼레이터(140)가 적절한 내용을 입력하면서 해당 사이트에 접근한다. 예를 들어, 상용 BBS의 자료실에 접근하기 위해서는 상용 BBS와 연결시키는 단계(사용자 이름과 비밀번호를 입력 포함) 및 기설정된 화면상의 버튼 또는 일련의 키 입력을 통해 해당 자료실에 접근하는 단계 등을 거친다. 어떤 사이트의 경우 간단한 질문을 하여 제대로 답변한 사용자에게만 접근을 허락하는 경우도 있다.
사이트의 접근 방법이 바뀌었거나 기타의 이유로 접속에 실패한 경우는 오퍼레이터(140)에게 통지되고, 오퍼레이터(140)는 새로운 접근 방법을 수동으로 시도하여 성공한 경우 새로운 접근 방법을 포함하도록 엑세스 절차 아이템을 수정하여 엑세스 절차 데이터베이스에 저장한다. 엑세스 절차 데이터베이스는 엑세스 절차와 함께 검색 빈도 및 마지막 검색 시간 등이 함께 저장되어 있다. 검색 빈도는 오퍼레이터에 의해 지정되거나 과거의 침해 빈도 등에 의존하여 최적값으로 조절된다.
네트워크상의 서버에서 경우에 따라서는 사람이 아니라 자동 검색 시스템이 접근을 시도하는 경우 접근을 거부할 수도 있다. 만일 본 발명의 자동 검색 시스템이 침해 행위를 적발하는데 사용된다는 것이 알려지면, 이와 같이 자동 검색 시스템에 의한 검색을 방해하는 행위는 더욱 심해질 것이 예상된다. 따라서, 본 발명의 자동 검색 시스템은 대상 사이트에 접근하기 위해서 특정 검색 시스템이 아니라 일반 사용자가 접근을 시도하는 것으로 인식시키기 위하여 여러 가지 방법을 사용한다. 전술한 바와 같이 다양한 IP 어드레스를 이용하여 접근을 시도하는 것도 이를 위한 한 방편이다. 또한, 사용자가 키 또는 버튼을 누르는 경우는 프로그램 등이 자동으로 입력하는 것에 비해 시간 지연이 많이 발생한다. 따라서 적절한 지연을 키 또는 버튼 입력에 해당하는 동작의(로봇은 실제로 키나 버튼을 누르는 것이 아니라 키나 버튼이 눌린 것과 같이 신호를 보내주는 역할을 함) 중간 중간에 삽입함으로서 마치 자동 검색 시스템이 접근하는 것이 아니라 개인 사용자가 접근하는 것으로 인식되도록 한다.
엑세스 절차 아이템에 따라 해당 사이트에 접근하는 후에는 타인의 권리를 침해하는 내용을 담고 있을 수 있는 후보 데이터 화일들을 다운로드받아 저장한다. 이는 웹 페이지의 텍스트 및 그림, 다운로드가능한 것으로 표시되어 있는 데이터화일 등을 포함한다. 또한, 사이트 접근 및 데이터 화일을 다운로드받는 동안 네트워크와 본 발명의 검색 시스템간의 모든 송수신 데이터는 저장된다. 이는 어떤 키가 눌리는가 또는 사이트의 어떤 버튼이 눌리는가에 대한 정보, 접근한 웹 페이지에 대한 정보, 쿠키(cookie), 텍스트 및 이진 데이터 등을 모두 포함한다. 오퍼레이터는 웹 브라우저나 PC 통신업자가 제공하는 소프트웨어 등을 이용하여 해당 사이트에 접근하지만, 본 발명의 검색 시스템은 웹 브라우져 상에 표시되는 데이터 뿐만 아니라 모든 송수신 데이터를 패킷 단계에서 가로채어 저장하거나 프록시 서버를 이용하여 저장한다. 모든 송수신 데이터 및 접속에 관한 정보를 담은 접속정보태그(접속 시간, 연결된 포트 등의 부가 정보를 포함함)를 저장한 후에는 단계(S200)로 진행한다.
도 4A 내지 도 4C는 본 발명의 검색 시스템에서 찾아내어 본 발명의 검색 시스템의 일부인 메모리에 저장된 후보 데이터 화일이 타인의 권리를 침해하고 있는 데이터를 포함하는지 여부를 판단하는 방법의 일실시예를 도시하고 있다. 도 4A를 먼저 살펴보면 먼저 데이터 화일이 이진 화일인지 판단하고(S205), 이진 화일인 경우는 또 압축 화일인지 판단하여(S207) 압축화일인 경우 압축을 푼다(S210). 압축되지 않은 화일이나 압축이 해제된 화일은 이진 화일의 화일 유형을 판별하는 과정(S220)을 거친후 도 4B에 도시된 과정으로 넘어간다. 압축화일인지 여부의 판단과 화일 유형 판별을 위하여는 화일의 확장자와 함께 화일의 헤더를 분석하여야 한다. 일반적으로는 화일 유형을 화일의 확장자로 표시하지만(예를 들어 mp3 화일의 경우 filename.mp3) 침해 데이터의 경우는 침해 데이터라는 사실이 발각되기 어렵도록 고의적으로 확장자를 변조했을 가능성이 많다. 따라서, 화일확장자를 참조는 하되 이에만 의존하지 않고 헤더를 분석하여 압축 여부와 화일유형을 판단한다. 압축을 해제한 경우는 그 사실을 접속정보태그에 추가한다.
단계(S205)의 판단에서 이진화일이 아닌 경우는 인코딩된 이진화일을 포함하는지 확인한다(S230). 인코딩된 이진 화일을 포함하는 경우란 예를 들어 뉴스그룹에 올리는 내용에 이진화일을 인코딩하여 (예를 들어 uuencode 방법으로) 첨부하는 경우 등을 의미한다. 인코딩된 이진 화일을 포함하는 경우는 이진 화일을 분리하고(S240) 분리된 이진 화일은 다시 원래의 이진화일의 처리와 동일한 과정(S207, S210, S220)을 거친다.
부호화된 이진화일을 제외한 나머지 데이터는 텍스트 데이터이다. 이 텍스트 데이터는 키워드 데이터베이스에 저장되어 있는 키워드와의 매칭(matching)여부를 1차 판단한다(S245). 매칭되지 않는 경우는 텍스트내의 키워드를 유사어로 변환하는 과정(S250)을 거친 후 다시한번 키워드 매칭을 수행한다(S260). 유사어 변환은 자동검색을 피하기 위하여 사투리, 은어, 비속어 등을 사용하거나 발음 되는대로 표기(예를 들어 MP3를 엠피스리로 표기), 한글의 발음을 영어로 표기한 단어를 매칭에 적합한 적절한 단어로 바꾸어주는 과정이다. 매칭되는 경우 도 4C에 도시된 과정으로 진행된다. 키워드 데이터베이스(240)는 검색하고자 하는 저작물이나타인의 권리를 침해하는 내용(예를 들어 개인의 프라이버시 침해, 회사의 비방)에 사용될 핵심적인 단어들을 추출하여 미리 저장해 놓은 것이다.
도 4B에서는 이진 화일의 유형에 따라 도시된 과정들이 수행되는데, 오디오에 대한 경우만 도시되어 있지만 다른 유형의 화일도 도시된 것과 동일한 과정을 거쳐 처리된다. 오디오 화일은 시그너쳐 데이터베이스(260)에 저장된 각각의 시그너쳐(signature)를 참조하여 미리 등록된 오디오 화일과 일치하는지(S310) 일치하는 경우 적법한 데이터인지(S320) 판단한다.
이때, 시그너쳐 데이터베이스(260)는 검색 시스템에서 검색하고자 하는 소정의 대용량의 멀티미디어 화일들을 동일 화일인지 여부를 판단할 수 있는 특징을 포함하는 작은 크기의 화일(시그너쳐)로 변환하여 저장해 놓은 것이다. 시그너쳐는 예를 들어 저작자에 대한 정보등을 나타내는 워터마크 데이터를 포함할 수 있다. 단계(S310)에서는 검색한 오디오 화일 또한 시그너쳐 형태로 변환하여 데이터베이스에 저장되어 있는 시그너쳐들과 비교한다. 적법한 권리자에 의해 제작된 원래의 오디오 파일에, 파일의 변조에 강인한 공지의 워터마크 기술을 사용하여 저작자나 파일의 내용에 대한 워터마크가 삽입되어 있는 경우, 이 단계에서 상당 부분의 침해 데이터를 판별해 내는 것이 가능하다.
만일 침해 오디오 화일을 올리는 자가 침해로 판단되는 것을 피하기 위하여 미리 오디오 화일을 변조시켜 놓고, 워터마크 등의 방법을 사용하여도 단계(S310)에서 정확하게 시그너쳐 매칭이 일어나지 않더라도, 미리 등록된 오디오 화일(오디오 데이터베이스(270)에 저장되어 있음)들과 확률적 패턴 매칭을 통해(S330) 침해데이터인지를 판단한다. 확률적 패턴 매칭이란 압축 등으로 인한 로스로 정확하게 매칭이 되지 않는 경우도 있으므로, 예를 들어 어느정도의 문턱값 이상으로 매칭이 되는 경우 매칭된 것으로 판단하는 과정을 의미한다. 확률적 패턴 매칭에는 종래에 음성 인식 분야 등에서 알려진 여러 가지 방법이 사용될 수 있고, 계산량이 많이 소요되는 작업이므로 도시된 것처럼 여러개의 프로세스가 복수개의 프로세서에서 병렬로 처리되도록 한다. 확률적 패턴 매칭에서 미리 등록된 오디오 화일과 동일한 화일인 것으로 판단되면 역시 침해 데이터인지 여부를 판단하여(S320) 침해 데이터인 경우는 도 4에 도시된 과정이 수행된다. 도 4B의 확률적 패턴 매칭을 통해 침해 데이터인 것으로 판단되지 않은 경우라도 오퍼레이터가 수동으로 다시 침해 여부를 판단할 수 있다(S340).
적법한 데이터인지 침해 데이터인지의 판단(S320)을 위하여는, 미리 등록된 오디오 화일의 내용 및 시그너쳐와 함께 오디오 화일을 공개할 권리가 있는 적법한 권리자가 공개한 것에 대한 정보도 같이 저장되어 있어야 한다. 본 발명의 검색 시스템이 찾아낸 오디오 화일이 미리 등록된 오디오 화일 중 하나인 경우에는, 적법한 공개에 대한 정보를 참조하여 적법한 공개인 경우에는 침해 데이터가 아닌 것으로 판단한다.
도 4C는 텍스트의 키워드 매칭이 된 경우 수행되는 과정들의 일실시예를 도시하고 있다. 먼저 침해와 관련된 텍스트가 검출된 페이지가 다른 사이트를 참조하고 있는지를 판단하여(S360) 다른 사이트를 참조하는 경우 이 사이트에 대한 엑세스 절차 아이템을 엑세스 절차 데이터베이스에 추가한다(S370). 예를 들어 임시FTP 사이트에 침해 데이터가 있다는 사실을 뉴스에 포스팅하여, 그 뉴스의 내용이 검색된 경우. 참조하고 있는 FTP 사이트의 주소와 디렉토리에 관한 정보를 엑세스 절차 데이터베이스에 최우선순위로 삽입하여, 다음 검색 수행시 이 사이트가 검색되도록 한다.
다른 사이트를 참조하지 않는 경우에는 검색된 텍스트 자체가 미리 등록된 텍스트 저작물인지를 판단한다. 즉, 텍스트 데이터베이스에 미리 저장되어 있는 저작물과 정확하게 매칭되는지를 판단(S380)한다. 매칭되는 경우 도 5에 도시된 과정이 수행되고, 매칭되지 않는 경우는 오퍼레이터가 개입하여 다시 침해 데이터인지를 판단한다(S390). 오퍼레이터가 저작권이나 기타 타인의 권리를 침해하는 데이터라고 판단하는 경우는 도 5에 도시된 과정이 역시 수행된다.
도 5는 침해 데이터가 네트워크상에서 발견된 경우의 처리 과정을 도시한 것이다. 침해 데이터가 발견된 경우는 엑세스 절차 데이터베이스에 저장되어 있는, 침해 사이트 및 이와 관련된 사이트에 대한 검색 주기를 짧게 변경하고, 관련된 사이트들을 우선적으로 검색한다. 침해와 관련된 사이트라 함은 침해 내용이 어떤 사이트에서 발견된 이후에, 이에 후속하여 침해 데이터를 담고 있을 확률이 높은 사이트를 포함한다. 이와 같은 사이트를 예측하기 위한 구체적인 실시예로서는, 기존에 검색된 침해 데이터의 전파 경로를 기록하여 어떤 패턴을 발견하면, 소정의 침해 사이트의 침해 데이터가 전파될 예상 전파 경로를 추정하는 것이 가능하다. 이 전파 경로는 방향성이 있을 수도 있고 (즉 A사이트->B사이트->C사이트의 순으로 전파), 없을 수도 있다(즉 A사이트->B,C 사이트, B->A,C, C->A,B 방향성 없이 고루퍼지는 경우). 침해가 발견된 사이트가 기존에 알려진, 방향성이 있는 전파 경로의 시작 부분이 아닌 경우, 경로의 시작 방향으로 역추적을 할 수도 있다.
또한, 침해 데이터에 대한 모든 기록은 침해 기록 데이터베이스에 저장되고, 또한 그 일부는 증거 확보 시스템으로 전송되어 증거를 확보하는 과정이 진행된다. 증거 확보 시스템에서는 전송된 데이터를 저장하고 이로부터 엑세스 절차 아이템을 분리한다(S440). 분리한 엑세스 절차 아이템에 따라 네트워크의 침해 데이터에 접근하는데(S450), 이를 위하여 공증 시스템은 검색 시스템과 실질적으로 동일한 검색 로봇을 포함하는 것이 바람직하다. 검색 로봇에 의해 침해 데이터에 접근하면 검색 시스템에서와 마찬가지로 사이트 접근 및 데이터 화일을 다운로드받는 동안 네트워크와 증거 확보 시스템간의 모든 송수신 데이터는 저장된다. 이와 같은 모든 과정은 사람(침해 행위와 관련없는 제3자)에 의해 감독되어, 그 결과는 나중에 침해에 대한 증거로서의 법적 효력을 가질 수 있게 한다. 이를 위하여 증거 확보 시스템은 검색 시스템과는 격리된 별도의 장소에서, 독립적으로 운영되는 것이 바람직하다. 가능하다면 공증 등의 절차를 통해 증거로서의 법적 효력을 확보하는 것이 바람직하다. 즉, 사이트의 접속 과정 및 그 사이트의 내용에 대하여 공증을 받을 수 있다면 가장 바람직하다.
검색 시스템에서 검색, 저장한 데이터를 증거 확보 시스템으로 모두 전송하지 않고 침해 사실의 표시와 엑세스 절차 아이템, 접속 시간만을 전달할 수도 있다. 또한, 증거 확보 시스템에서는 침해 데이터를 모두 저장하지 않고 대신, 증거 확보 시스템에서 검색 시스템의 요청에 따라 찾은 침해 데이터가, 검색 시스템에저장된 침해 데이터와 동일한 데이터라는 사실을 확증할 수 있는 정도의 정보를 담은 특징 데이터(feature data)로 침해 데이터를 변환하여 저장할 수도 있다. 이와 같은 방법에 따르면 검색 시스템이 찾아낸 침해 데이터가 실제로 어떤 사이트에 언제 존재한다는 사실을 입증하면서도, 증거 확보 시스템에 다량의 침해 데이터 대신 데이터의 양이 상당히 줄어든 특징 데이터만을 저장하면 되므로 증거 확보 시스템의 메모리 공간이 훨씬 적게 필요하다.
또한 증거 확보와는 별도로 검색 시스템의 오퍼레이터가 개입하여 침해 데이터에 대한 여러 가지 대응방법을 수행(S470)한다. 대응 방법의 일례로는 해당 침해 데이터가 공개된 사이트의 ISP에게 경고를 보내어 사이트 폐쇄를 요구하거나, 사이트로의 접속 기록을 요구할 수도 있다. 또한, 사이트가 동적으로 할당되는 주소를 갖는 경우 ISP에게 그 시각에 해당 주소를 할당받은 접속 장치(모뎀 등)에 대한 자료를 요구할 수도 있다. 다른 대응책으로는 침해 데이터의 권리자나 그 대리인에게 침해 사실을 통보하는 것, 침해자에게 직접 경고하는 것도 가능하다.
다음은 본 발명의 검색 시스템에서 사이트에 접근하는 방식을 표준적인 방식으로 기록한 엑세스 절차 아이템 및 이에 따라 사이트에 접근하는 검색 로봇에 대해 자세히 설명하기로 한다.
본 발명의 검색 시스템에서 가능한 많은 사이트에 오퍼레이터의 개입 없이 자동적으로 접근할 수 있기 위해서는, 접근 경로 및 방법의 기술(description)에 있어 제약이 적어야 한다. 다음과 같은 다양한 사이트에 접근하는 것은 단순히 URL만을 기술해서는 불가능하다.
- 로그인(login)이 필요한 WWW 혹은 FTP 사이트
- 쿠키(Cookie)가 필요한 사이트
- 폼(Form)의 입력 필드에 값을 넣고 서브미트(submit)해야 하는 사이트
- 자바스크립트(JavaScript), 액티브엑스(ActiveX) 콘트롤 혹은 자바애플릿(Java applet)을 수행해야 하는 사이트
- 텍스트 모드의 BBS에서처럼 프롬프트(prompt)에 일정한 순서의 명령을 입력해야 도달할 수 있는 사이트
- 계속 내용이 바뀌는 [예를 들어 계속 새로운 글(article)이 추가되어 특정 글(article)이 점차 뒷 페이지로 밀려가는] 사이트
- 특정 유즈넷 뉴스 서버(USENET News server)의 특정 글(article)
상기 사이트에서 사용되는 다양한 접근 방법을 제약 없이 기술하고, 이렇게 기술된 내용을 저장하거나 전송하기 위해 스크립트 언어를 사용할 수 있다. 현재 펄(Perl) 이나 파이손(Python) 등과 같은 스크립트 언어는 네트웍 접속에 필요한 다양한 라이브러리를 갖추고 있어 간단한 명령에 의해 네트웍 상의 서버에 접근하고 데이터를 가져올 수 있다. 이러한 스크립트 언어는 텍스트 화일의 형태로 저장되고 전송될 수 있으며 로봇이 스크립트 해석기를 내장하면 텍스트 화일로 된 프로그램을 바로 실행할 수 있다.
예를 들어, 필요한 함수가 미리 정의되어있다고 가정할 때 xxx.yyy.zzz 웹사이트의 aaa/bbb.mp3 화일을 HTTP 프로토콜을 사용하여 다운로드 하는 것은 다음과 같이 기술될 수 있다.
urlopen("http://xxx.yyy.zzz/aaa/bbb.mp3")
어떤 웹 페이지는 보다 복잡한 방법으로 접근해야 하는데, 예를 들어 페이지에 포함된 자바스크립트(javascript)를 실행해야 하거나 액티브엑스(ActiveX) 콘트롤, 또는 자바 애플리트(Java applet)을 수행해야 하는 경우가 있을 수 있다. 이러한 다양한 접근 방법을 제공하기 위해 로봇은 스크립트 언어에 의해 제어되는 웹브라우저를 사용할 수 있다 (널리 사용되는 웹브라우저들은 COM이나 CORBA 인터페이스를 이용하여 다른 프로그램에 의해 제어될 수 있다). 예를 들어 xxx.yyy.zzz 페이지의 "download"라는 버튼을 누르는 것을 다음과 같이 기술할 수 있다.
browser.open("http://xxx.yyy.zzz")
browser.find(BUTTON, "download").press()
모뎀 혹은 텔넷 프로토콜(telnet protocol)에 의해 동작하는 텍스트 기반의 BBS는 웹 페이지와는 다른 방법으로 접근하여야 한다. 예를 들어 bbs.com에 foo라는 ID와 bar라는 패스워드로 로그인 한 후 movie 동호회의 7번 방에서 3500번 자료를 다운로드 받는 것은 다음과 같이 기술될 수 있다.
telnet.open("bbs.com")
wait("login:")
enter("foo")
wait("password:")
enter("bar")
wait("command>")
enter("go movie")
wait("command>")
enter("7")
wait("command>")
enter("dn 3500")
...
스크립트 언어를 사용하므로 패턴의 검색이나 특정 조건이 맞을 때까지의 반복 등을 기술할 수도 있다. 이 때 다운로드 된 데이터와 함계 침해 판단 단계로 보내어지는 엑세스 절차 아이템에서는 반복 구문을 특정 인덱스로 대치한다. 이는 뉴스나 BBS에서 어떤 범위의 글을 검색하는 엑세스 절차 아이템이 다운로드된 데이터와 함께 침해 판단 단계로 보내질 때에는 반복(for나 while) 구문을 해당글에 대한 인덱스 변수의 값으로 대치하는 것이다.
로봇에 의한 탐색이 일반화되면 이를 고의로 피하기 위하여 사람이 아니면 접근하기 어렵도록 웹 사이트를 만들 수 있다. 예를 들어 매번 접속할 때마다 사람에게는 쉽지만 컴퓨터는 알 수 없는 상식적인 질문을 해서 정답을 맞춰야만 로그인이 가능하도록 할 수 있다. 이런 경우에 대응하기 위하여 다음과 같이 오퍼레이터에게 도움을 청하도록 할 수 있다.
prompt("다음 다이얼로그 박스에 적절한 값을 입력하고 로그인해주세요")
urlopen(....)
엑세스 절차를 기술하는데 있어서는 본 명세서에 개시된 것 이외에 여러가지다른 방법도 가능하다. 엑세스 절차는 주요한 BBS등에 대해 사람이 개입하여 작성할 수도 있고, 오퍼레이터가 특정 사이트에 접근하는 과정을 기록하여 자동으로 생성되도록 할 수도 있다.
도 6은 본 발명의 검색 및 증거확보 시스템의 다른 실시예를 도시한다. 도 6의 시스템에서는 침해 데이터에 대한 증거의 신빙성을 높이기 위하여 서로 독립적인 두 개(또는 세 개 이상의 시스템도 가능)의 증거 확보 시스템(300, 300')에서 침해 데이터의 존재 사실에 대한 증거를 확보한다.
도 7은 본 발명의 검색 및 증거확보 시스템의 또 다른 실시예를 도시한다. 도 7의 실시예의 검색 시스템은 주검색 시스템(200')과 다수의 원격검색시스템(202, 204, 206)을 포함한다. 도 7의 실시예에서는 도 1의 검색 시스템에서 수행되는 작업의 일부를 다수의 원격검색시스템에 할당하고 이들로부터의 결과를 주검색시스템에서 다시 취합하는 방식으로 검색을 수행한다. 이와 같은 시스템의 장점은 전술한 바와 같이 검색 대상 사이트에서 특정 IP 주소로부터의 액세스를 거부하는 방법으로 침해 데이터가 발견되는 것을 방해할 가능성이 있는데, 다수의 원격검색시스템에서 침해 사이트에 접속함으로써 이를 방지할 수 있다. 또한, 검색 시스템에 필요한 방대한 양의 대역과 컴퓨팅 자원을 분산시킴으로서, 대역(bandwidth) 및 컴퓨팅 자원을 효율적으로 이용하는 것이 가능하다.
사무실이나 대학교 등 네트웍에 상시 접속되어 있고 계속 가동되는 컴퓨터 중 일부를 선정하여 원격 검색 소프트웨어를 설치하는데, 이와 같이 원검 검색 소프트웨어가 설치된 컴퓨팅 시스템을 원격 검색 시스템이라 칭한다. 원격검색 시스템에서 수행되는 원격검색 프로그램은 사용자 컴퓨터의 CPU의 아이들(idle) 타임 동안 검색 작업을 수행하고, 사용자와 네트워크간의 접속 대역이 남는 부분에서 네트워크와의 데이터 교환이나 주검색 시스템과의 데이터 교환을 수행하여 원격검색 시스템의 사용자는 컴퓨터의 성능에 전혀 영향을 받지 않도록 할 수 있다. 이와 같은 원격검색 시스템은 미리 동의를 구한 사용자의 컴퓨터에 설치되고, 검색 작업을 수행하는 대가로, 예를 들어 검색 시스템 측에서 전자 화폐 등을 지불할 수 있다.
원격 검색 시스템은 단지 각 사이트에 접근하여 사이트의 내용을 주검색 시스템으로 전달해주는 역할만을 수행하도록 할 수 있다. 이 경우는 주검색 시스템에서 실제적인 판단이 모두 일어나므로 주검색 시스템의 작업의 부담이 원격검색 시스템에 의해 많이 줄어드는 것은 아니다. 혹은 원격 검색 시스템에서 일차적인 판단 또는 초기 프로세싱을 수행하여 가공된 형태의 데이터를 주검색 시스템으로 전달하도록 할 수도 있다. 이 경우는 주검색 시스템의 작업 부담을 상당히 줄이는 것도 가능하다.
도 8은 도 7의 원격 검색 시스템의 일실시예에서, 수행되는 작업을 도시한 것이다. 원격 검색 시스템은 설치된 컴퓨터의 원래의 작업을 하지 않는 시간에 (사전에 그 시간을 설정해 놓거나 혹은 스크린 세이버와 같이 컴퓨터가 일정 시간 이용되지 않으면 검색 작업을 시작하도록 하는 것도 가능하다.) 검색 활동을 한다. 즉, 먼저 원격 검색 시스템의 검색 로봇(110)이 주검색 시스템으로부터 전송받은 엑세스 절차 아이템에 따라 네트워크의 특정 사이트에 접근한다. 주검색 시스템으로부터 전송받은 엑세스 절차 아이템은 원격 검색 시스템 내의 큐(queue)에 저장되어 있다. 주 검색 시스템에서 원격 검색 시스템에게 액세스 절차 아이템을 전송할 때는 다음과 같은 사항을 고려하여 원격 검색 시스템에서 접근하는 것이 효율적인 아이템을 전송한다. 즉, 통신 대역을 효율적으로 사용할 수 있도록 검색 대상 사이트에 가까이 있는 (즉, 접근이 빠른) 원격 검색 시스템에 해당 사이트에 대한 엑세스절차 아이템을 전송한다. 단, 이렇게 한다 하더라도 하나의 사이트에 항상 같은 원격 검색 시스템이 접근하지는 않도록(즉, 하나의 IP 주소로 반복 접근하는 것을 피하도록) 복수개의 원격 검색 시스템이 번갈아가면서 하나의 사이트에 접속하도록 한다.
또한, 주검색 시스템에서 검색하지 않고 원격 검색 시스템에 엑세스 절차 아이템을 전송함으로써 검색을 의뢰하는 아이템은 크기가 큰 이진 파일을 대상으로 하는 것이 바람직하다. 실제 데이타를 다운로드하기 전에 데이타의 크기를 알 수 있는 경우, 이와 같이 파일의 크기에 따라 선택적으로 검색을 의뢰하는 것이 가능하다. 원격 시스템에 검색이 의뢰된 아이템은 주검색 시스템의 액세스 방법 DB에서는 우선순위를 낮춘다.
로봇이 사이트로부터 가져온 데이터가 이진 데이터인지 판별하고(S815) 이진 데이터인 경우는 압축화일인지 판별하여(S825) 압축을 푼다(S830). 이진화일이 아닌 경우는 부호화된 이진 화일을 포함하는지 판별하고(S820), 이진 파일을 분리하여(S835) 다시 압축 판별 및 압축 해제 과정을 거친다. 이진화일을 제외한 나머지 텍스트 파일은 주검색 시스템으로 전송된다.
한편 압축이 해제된 이진 파일은 그 유형을 판별하여(S840) 유형에 따라 적절한 전처리 과정을 거친다. 예를 들어 전처리 과정은 이진화일의 시그너쳐를 추출하여, 주검색 시스템으로부터 전송받아 미리 원격 검색 시스템에 저장되어 있는 시그너쳐 DB의 내용중 정확히 매칭되는 것이 있는지 판단하는 것이다. 이 결과는 주검색 시스템으로 다시 전송된다. 이 때 크기가 큰 이진 파일을 원격 검색 시스템에 저장하는 것은 원격 검색 시스템이 설치된 컴퓨터의 동작에 영향을 줄 수도 있으므로, 시그너쳐만을 계산하고 데이터 자체를 장기간 저장하지는 않는 것이 바람직하다.
주 검색 시스템에서는 원격 검색 시스템이 전송한 결과에 따라, 액세스 방법 DB에서 마지막 접근 시각을 갱신한다. 또한, 이진 파일이고 시그너쳐 DB에 일치되는 항목이 있는 것으로 원격 검색 시스템에서 판단된 경우 적법한 데이터인지 여부를 다시 판단하여 불법 데이타로 판별된 경우는 도 5에 도시된 과정으로 진행하고, 합법 데이타로 판별된 경우에는 별도의 조치없이 다른 작업으로 넘어간다.
원격 검색 시스템에서 시그너쳐 DB에 일치되는 항목이 없는 경우 및 텍스트 파일의 경우는 원격 시스템에서 침해 데이터인지 여부가 결정되지 않은 것에 해당되므로, 주 검색 시스템의 해당 액세스 방법 아이템의 우선순위를 높여서 주 검색 시스템에서 적절한 시기에 다시 침해 판단이 이루어지도록 한다.
이와 같이 원격 검색 시스템에서 도 4A 및 도 4B에 도시된 작업의 일부를 수행하게 되면 주검색 시스템의 작업량이 감소되게 된다.
원격 검색 시스템과 주 검색 시스템 간의 통신은 암호화하여 보안을 유지하고 전송 내용의 변조를 방지한다. 원격 검색 시스템은 자신의 파일등이 타인에 의해 변경되는 것을 감지하기 위해, 원격 검색 시스템을 구성하는 모든 파일들의 시그너쳐를 주기적으로 주 검색 시스템에 전송한다. 또한, 주 검색 시스템에서는 원격 검색 시스템의 시그너쳐 DB를 계속 갱신하여 최신 상태로 유지되도록 한다.
본 명세서는 특정 실시예에 대하여 기술되었지만 다른 변형 및 변환이 가능하다는 것이 본 기술 분야의 당업자에게 자명하다.
예를 들어, 본 명세서에 예시된 것 이외의 다른 방법으로도 사이트로의 접근 절차를 표준화한 엑세스 절차 아이템을 구성하는 것이 가능하다. 또한, 각 사이트의 데이터의 침해 판단에도 전술한 방법 이외에도 퍼지 로직이나, 인공 지능 분야의 다양한 알고리듬을 적용하는 것이 가능하다. 또한 본 발명의 검색 시스템을 다수의 컴퓨터가 병렬로 동작하는 시스템으로 구현하는 것은 본 기술 분야의 당업자에게 자명한 사항이다.
따라서, 이와 같이 본 발명의 사상에 포함되는 모든 변형 및 변환이 첨부한 청구범위에 속하는 것으로 이해되어야 한다.
본 발명에서는 표준화된 액세스 절차 데이터베이스를 사용하여 다양한 사이트에 접근함으로써 기존의 검색 엔진이 검색하지 못했던 범위까지 자동으로 검색이 가능하다. 또한 이진화일의 내용을 비교하고, 압축 화일도 압축을 풀어서 비교하고, 화일 헤더를 분석하는 등의 방법으로 침해 데이터라는 사실을 발견하기 쉽지 않은 데이터들도 찾아낼 수 있다.
또한, 이전에는 막대한 인력을 들여 검색할 수밖에 없었던 일을 자동 시스템화함으로써 작업을 효율이 높아지고 인력 및 비용을 크게 절감된다. 특히 원격 검색 시스템을 활용함으로서 검색에 소요되는 통신대역 및 컴퓨팅 자원을 크게 절감할 수 있다.
자동 시스템화함으로써 얻을 수 있는 또다른 효과는 필요한 증거를 누락하지 않고 수집하여 침해의 증거를 확보할 수 있으며, 신속한 대응이 가능하므로 침해 데이터가 해당 사이트로부터 삭제 또는 변조되기 전에 증거를 확보하고, 다른 많은 곳으로 전파되는 것을 차단할 수 있다는 것이다.

Claims (12)

  1. 다수의 사이트를 포함하는 네트워크에서 타인의 권리를 침해하는 행위와 관련되는 데이터를 검색하기 위한 시스템에 있어서,
    기설정된 접근 절차에 따라 네트워크상의 사이트들에 접근하여, 상기 각각의 사이트의 데이터가 타인의 권리를 침해하는 행위와 관련되는 데이터인지 판단하기 위한 검색부와,
    상기 사이트의 데이타가 타인의 권리를 침해하는 행위와 관련되는 데이터인 경우 상기 사이트에 상기 데이터가 소정의 시간에 존재한다는 증거를 확보하기 위한 증거확보부
    를 포함하는 검색 시스템.
  2. 제1항에 있어서, 상기 네트워크에 포함된 상기 다수의 사이트는 웹 사이트, FTP(file transfer protocol) 사이트, BBS(bulletin board system), 유즈넷 뉴스그룹(USENET newsgroup) 중 하나 이상의 조합을 포함하는 검색 시스템.
  3. 제1항에 있어서, 상기 검색부는 상기 네트워크에 포함된 다수의 사이트 각각에 관한 엑세스 절차를 포함하는 엑세스 절차 아이템을 저장하기 위한 엑세스 절차 데이터베이스를 포함하는 검색 시스템.
  4. 제3항에 있어서, 상기 검색부는 상기 저장된 엑세스 절차 아이템에 따라 소정의 사이트에 접속하여, 상기 사이트와 데이터를 통신하기 위한 검색 로봇을 포함하는 검색 시스템.
  5. 제3항에 있어서, 상기 검색부는 소정의 사이트의 테이타가 타인의 권리를 침해하는 행위와 관련되는 데이터라고 판단한 경우, 상기 사이트에 관한 엑세스 절차 아이템을 상기 증거확보부에 전달하는 검색 시스템.
  6. 제1항에 있어서, 상기 증거확보부는 상기 검색부와 독립적으로 타인의 권리를 침해하는 행위와 관련된 데이터가 있는 소정의 사이트에 접속하여, 상기 데이터를 전송받고 전송받은 데이터를 저장하기 위한 수단을 포함하는 검색 시스템.
  7. 제1항에 있어서, 상기 증거확보부는 상기 검색부와 독립적으로 타인의 권리를 침해하는 행위와 관련된 데이터가 있는 소정의 사이트에 접속하여, 상기 데이터를 전송받고 전송받은 데이터를 저장하기 위한 부 증거확보부를 두 개 이상 포함하고, 상기 부 증거확보부들은 서로 독립적으로 접속, 전송 및 저장을 수행하는 검색 시스템.
  8. 제1항에 있어서, 상기 검색부는 주검색부와 다수의 원격검색부를 포함하고,
    상기 다수의 원격검색부 각각은 기설정된 접근 절차에 따라 네트워크상의 사이트들에 접근하여, 상기 각각의 사이트의 데이터를 전처리하여 주검색부에 전송하고,
    상기 주검색부는 상기 전처리된 데이터를 이용하여 상기 사이트의 데이터가 타인의 권리를 침해하는 행위와 관련되는 데이터인지 판단하는 검색 시스템.
  9. 다수의 사이트를 포함하는 네트워크에서 기설정된 유형의 데이터를 검색하기 위한 시스템에 있어서,
    상기 다수의 사이트 각각에 대한 접근 절차를 정의하는 엑세스 절차 아이템을 저장하기 위한 수단과,
    상기 엑세스 절차 아이템에 따라, 네트워크상의 사이트에 접근하기 위한 수단과,
    상기 사이트의 데이터가 상기 기설정된 유형의 데이터인지 판단하기 위한 수단을 포함하되,
    상기 다수의 사이트는 접근 절차가 상이한 사이트들을 포함하고,
    엑세스 절차 아이템은, 상기 서로 상이한 접근 절차를 표준화된 방식으로 표현한 일련의 명령어로서 표현되어 있는 검색 시스템.
  10. 하나 이상의 사이트를 포함하는 네트워크에서 타인의 권리를 침해하는 행위와 관련되는 데이터를 검색하기 위한 방법에 있어서,
    기설정된 접근 절차에 따라 네트워크상의 사이트에 접근하는 단계와,
    상기 사이트의 데이터가 타인의 권리를 침해하는 행위와 관련되는 데이터인지 판단하는 단계와,
    상기 사이트의 데이타가 타인의 권리를 침해하는 행위와 관련되는 데이터인 경우 상기 사이트에 상기 데이터가 소정의 시간에 존재한다는 증거를 확보하는 단계
    를 포함하는 검색 방법.
  11. 다수의 사이트를 포함하는 네트워크에서 기설정된 유형의 데이터를 검색하기 위한 방법에 있어서,
    기설정된 접근 절차에 따라 네트워크상의 사이트에 접근하는 단계와,
    상기 사이트의 데이터가 상기 기설정된 유형의 데이터인지 판단하는 단계
    를 포함하되,
    상기 다수의 사이트는 접근 절차가 상이한 사이트들을 포함하고,
    상기 기설정된 접근 절차는, 상기 서로 상이한 접근 절차를 표준화된 방식으로 표현한 일련의 명령어로서 표현되어 있는 검색 방법.
  12. 제11항에 있어서, 상기 사이트의 데이터가 기설정된 유형의 데이터인 경우, 상기 사이트와 관련 있는 사이트에 접근하여, 관련 있는 사이트의 데이터가 기설정된 유형의 데이터인지 판단하는 단계를 더 포함하는 검색 방법.
KR1020000004487A 2000-01-29 2000-01-29 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템 KR20010076995A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000004487A KR20010076995A (ko) 2000-01-29 2000-01-29 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000004487A KR20010076995A (ko) 2000-01-29 2000-01-29 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템

Publications (1)

Publication Number Publication Date
KR20010076995A true KR20010076995A (ko) 2001-08-17

Family

ID=19642793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000004487A KR20010076995A (ko) 2000-01-29 2000-01-29 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템

Country Status (1)

Country Link
KR (1) KR20010076995A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124495A1 (ko) * 2016-12-30 2018-07-05 (주)엠더블유스토리 불법 콘텐츠 검색 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124495A1 (ko) * 2016-12-30 2018-07-05 (주)엠더블유스토리 불법 콘텐츠 검색 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
US9680866B2 (en) System and method for analyzing web content
US7640215B2 (en) System and method for evaluating and enhancing source anonymity for encrypted web traffic
KR101201003B1 (ko) 데이터의 출처 추적 및 데이터 전송 제어
US20030095660A1 (en) System and method for protecting digital works on a communication network
CN108337269B (zh) 一种WebShell检测方法
JPH11232286A (ja) 情報検索システム
US20060239430A1 (en) Systems and methods of providing online protection
US9258115B2 (en) Securing information exchanged via a network
US7454779B2 (en) Method, system and computer program for controlling access in a distributed data processing system
CN102594934A (zh) 一种识别被劫持网址的方法及装置
US20180234234A1 (en) System for describing and tracking the creation and evolution of digital files
US11503072B2 (en) Identifying, reporting and mitigating unauthorized use of web code
JP2008015733A (ja) ログ管理計算機
JP2004112318A (ja) コンテンツ不正利用探索システム
Ham et al. Big Data Preprocessing Mechanism for Analytics of Mobile Web Log.
KR20010076995A (ko) 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템
JP2005339008A (ja) アクセス制御方法およびプログラムと記録媒体
JP4607023B2 (ja) ログ収集システム及びログ収集方法
KR101092584B1 (ko) 불법 저작물 추적 시스템 및 방법
JP4542122B2 (ja) キャッシュサーバ等に保存されたコンテンツのオリジナルurlを取得してurlフィルタリングを行なう装置
KR100457425B1 (ko) 디지탈 저작권 관리 시스템
Boyapati et al. Anti-phishing approaches in the era of the internet of things
NL2026414B1 (en) System for processing digital asset authentication
KR19990018591U (ko) 인터넷 유해 사이트 접속 제한 장치
Bubaker et al. A Systematic Mapping Study on Web services Security Threats, Vulnerabilities, and Countermeasures

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination