KR20050082051A - 서열 색인 방법 및 그 시스템 - Google Patents

서열 색인 방법 및 그 시스템 Download PDF

Info

Publication number
KR20050082051A
KR20050082051A KR1020040010400A KR20040010400A KR20050082051A KR 20050082051 A KR20050082051 A KR 20050082051A KR 1020040010400 A KR1020040010400 A KR 1020040010400A KR 20040010400 A KR20040010400 A KR 20040010400A KR 20050082051 A KR20050082051 A KR 20050082051A
Authority
KR
South Korea
Prior art keywords
sequence
patent document
extracted
extracting
sequence number
Prior art date
Application number
KR1020040010400A
Other languages
English (en)
Other versions
KR100601941B1 (ko
Inventor
김기은
황정주
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040010400A priority Critical patent/KR100601941B1/ko
Priority to EP05002543A priority patent/EP1571563A3/en
Priority to US11/056,774 priority patent/US20050182571A1/en
Priority to JP2005038467A priority patent/JP2005235209A/ja
Priority to CNA2005100697952A priority patent/CN1684071A/zh
Publication of KR20050082051A publication Critical patent/KR20050082051A/ko
Application granted granted Critical
Publication of KR100601941B1 publication Critical patent/KR100601941B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

서열 색인 방법 및 그 시스템이 개시된다. 특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 서열 번호 및 서열 목록을 포함하는 특허 문서를 파싱하고 파싱된 특허 문서로부터 서열 번호 및 서열 목록을 추출한 후 서열 목록에서 서열 번호에 해당하는 서열을 추출한다. 이로써, 정형화된 표현 방식으로 등록 또는 공개된 특허 문서내의 서열 정보를 신속하고 정확하게 추출할 수 있다.

Description

서열 색인 방법 및 그 시스템{Method for indexing sequence listing and system therefor}
본 발명은 서열 색인 방법 및 그 시스템에 관한 것으로, 보다 상세하게는 특허 문서에 포함된 서열 번호에 해당하는 서열을 색인화하는 방법 및 그 시스템에 관한 것이다.
인터넷이 발달함에 따라 데이터베이스에서 검색어를 사용하여 문서를 검색하는 여러 가지 방법이 알려져 있으며, 검색 결과에 대해 보다 좋은 결과를 얻기 위해 자연어 처리 시스템 등을 구현하여 찾고자 하는 내용을 보다 쉽고 정확하게 처리하는 방법에 대해 많은 연구가 되고 있다.
그러나, 유전자 정보와 같이 암호화된 서열에 대해서는 종래의 방법을 적용하여 문서를 검색하기 어렵다. 유전자 서열은 알파벳으로 암호화되어 있고, 반복되는 특성을 가지며, 문자열이 적게는 10개에서 많게는 10만개를 넘는 문자열로 구성되기 때문에 유전자 서열을 검색하는 방법에 대해 여러 가지 알고리즘이 개발 중에 있다. 이 중 잘 알려진 방법으로는 BLAST, FASTA 등이 있으며, 이러한 방법은 알고 있는 유전자 서열과 데이터베이스에 등록된 다른 비교 유전자 서열의 유사성을 비교하는 방법이다.
인간 게놈 프로젝트(Human Genome project)가 완성되고 생명공학이 급속히 발전함에 따라 막대한 부가가치를 창출하기 시작하면서 그 기초 자원이라 할 수 있는 유전자(gene)의 해석과 기능을 밝히는데 세계 각국은 총력을 기울이고 있으며, 그 권리를 보호 받기 위해 유전자 서열을 특허의 청구 범위로 지정하고 있다.
유전자 서열이 특허청구범위로 지정됨에 따라, 세계지적재산권기구(WIPO)와 미국, 일본, 유럽 등을 중심으로 이들 서열을 신속, 정확하게 심사하기 위하여 명세서 내의 서열의 표기를 통일화하고 있다.
그런데, 유전자 서열의 특성상 서열 정보를 문서에 나타내면, 그 문서의 페이지 수가 수십 페이지에서 수백 페이지에 이르게 된다. 따라서, 유전자 서열 관련 특허 정보를 수집하려 할 때 다량의 특허를 분석하기 위해 많은 시간을 소비하게 되므로 자동화된 분류 방법이 필요하다. 그러나, 위에서 언급한 바와 같이 종래의 검색 방법을 사용하여 특허 문서 데이터베이스에서 유전자 서열을 찾으려면 시간도 오래 걸리고, 좋은 결과를 얻기도 어렵다.
따라서, 각 특허의 유전자 서열을 검색하고, 권리를 분석함에 있어서 유전자 서열을 추출하는 과정은 매우 중요하다. 하지만, 분류가 되어 있지 않은 문서를 자동화 하는 일은 쉽지 않으며 자동화 분류 과정에서 오류가 발생할 가능성이 높다. 특히, 기존의 알려진 문서의 자동화 색인기법들인 역파일(inverted file), 접미사 배열(suffix array), 요약파일(signature file)들은 그 구현이 매우 복잡하고 동작의 정확도가 떨어지는 문제점을 가지고 있다.
통상적으로 사용되어온 검색을 통한 검색 방법이나, 유사성 비교 방법 등으로도 찾고자 하는 특허를 입수하기에는 그 효율과 정확도가 떨어진다.
이에 대한 대안으로 각국의 특허청들은 유전자 서열 검색을 위한 색인화 작업을 시도하고 있으나, 아직 초기 단계에 있고, 특허 검색에 초점이 있는 것이 아니라 출원 및 심사에 용이하도록 설계된 프로그램이므로 만족스러운 특허 검색이 이루어지지 않고 있다.
본 발명이 이루고자 하는 기술적 과제는, 정형화된 표현 방식으로 등록 또는 공개된 특허 문서내의 서열 정보를 신속하고 정확하게 추출하여 색인화하는 서열 색인 방법 및 그 시스템을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 정형화된 표현 방식으로 등록 또는 공개된 특허 문서내의 서열 정보를 신속하고 정확하게 추출하여 색인화하는 서열 색인 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 서열 색인 방법의 일 실시예는, 특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 서열 번호 및 서열 목록을 포함하는 상기 특허 문서를 파싱하는 단계; 상기 파싱된 특허 문서로부터 서열 번호 및 서열 목록을 추출하는 제1추출단계; 및 상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 제2추출단계;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 서열 색인 방법의 다른 실시예는, 특허 문서 검색을 위한 검색식을 입력받는 단계; 적어도 하나 이상의 특허 문서가 저장된 제1데이터 베이스로부터 상기 검색식을 기초로 특허 문서를 검색하고 획득하는 단계; 상기 획득한 특허문서에서 서열 목록 및 특허청구범위 내의 서열 번호를 추출하는 제1추출단계; 및 상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 제1추출단계;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 서열 색인 시스템의 일 실시예는, 서열 번호 및 서열 목록을 포함하는 특허 문서를 획득하는 문서 획득부; 특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 상기 특허 문서로부터 서열 목록을 추출하는 서열 목록 추출부; 특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 상기 특허 문서로부터 서열 번호를 추출하는 서열 번호 추출부; 및 상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 서열 추출부;를 포함한다.
이로써, 정형화된 표현 방식으로 작성된 특허 문서내의 서열 정보를 정규 표현식(regular expression)을 기초로 신속하고 정확하게 추출할 수 있다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 서열 색인 방법 및 그 시스템에 관해 상세히 설명한다.
도 1a는 본 발명에 따른 서열 색인 방법의 일 실시예의 흐름을 도시한 흐름도이다.
도 1a를 참조하면, 먼저 특허 문서를 파싱(parsing)한다(S100). 특허 문서는 명세서, 특허청구범위, 필요한 도면, 필요한 서열 목록 및 특허와 관련된 서지적 사항을 포함한다. 특허 문서에 첨부되는 서열 목록 및 서열 번호는 각각의 국가에서 정해진 소정의 양식으로 작성되거나, WIPO의 표준 양식으로 작성된다.
여기서, 서열 목록(sequence listing)이란 특허 출원서에 첨부된 명세서의 일부 또는 출원 후 제출한 서류의 일부로서 유전자 서열 즉, 핵산 및 아미노산 서열과 기타 유용한 정보를 상세하게 개시한 것을 의미한다. 서열 번호는 서열 식별 기호(sequence identifier)로서 서열 목록의 각 서열에 부여된 정수이다.
일반적으로, 발명의 상세한 설명, 특허청구범위 또는 도면에는 서열 목록에 나타난 서열이 서열 식별 기호에 의거하여 인용되며 'SEQ ID NO:'로 선행된다. 서열을 인용하는 방식은 유사하나 각국의 특허 작성 방법에 따라 다를 수 있으며, 이 경우에는 각국의 작성 방법에 따라 본 발명에 따른 서열 색인 방법을 구현한다.
특허 문서는 HTML, SGML 및 다양한 문서 표현 방법에 의해 작성될 수 있다. 예를 들어, 특허 문서가 HTML 형태로 제공되면 특허 문서에서 HTML 태그를 제거하고 문자열로 전환한다. 특허 문서의 크기가 큰 경우에는 하나 이상의 문자열로 전환된다. 또한, 특허 문서 내에 불필요한 여백을 제거하여 문자열의 크기를 줄인다.
그리고, 적어도 하나 이상의 문자열로 전환된 특허 문서에 대해 단어별 문장별 구문 해석 과정인 파싱 과정을 수행한다.
파싱 과정의 수행 후 문자열로 전환된 특허문서에서 정형적인 형식으로 기술되는 서열 번호 및 서열 목록을 추출한다(S105). 일반적으로 서열 번호는 'SEQ ID NO:'를 수반하여 기술되며 서열 목록은 명세서에 별도의 단락으로 첨부된다. 또한, 서열 번호는 명세서, 특허 청구 범위 및 도면에 정형화된 표현으로 기술된다. 특허청구범위와 관련된 서열 번호, 즉 특허권의 권리범위와 관련된 서열 번호를 찾고자 하는 경우에는 특허 청구 범위 내에 포함된 서열 번호를 추출한다. 추출한 서열 번호 및 서열 목록은 각각의 문자열 변수에 저장한다.
특허 문서에는 동일한 서열 번호가 반복하여 기술될 수 있으며, 특허 청구범위내에서도 마찬가지다. 따라서, 추출된 동일한 서열 번호를 기초로 서열 목록에서 반복하여 동일한 서열을 추출하는 것은 비효율적이므로 이를 방지하기 위해 동일한 서열 번호에 대해서는 한 번만 추출한다.
추출한 서열 목록을 검색하여 추출한 서열 번호에 해당하는 서열 번호를 추출한다(S110). 추출된 각각의 서열 번호는 각각의 문자열 변수에 저장되고 각각의 저장된 문자열 변수에 저장된 서열 번호를 기초로 추출된 서열 목록에서 각각의 서열을 추출한다. 또는 서열 번호를 추출할 때 마다 서열 목록에서 서열을 추출할 수 있다.
추출된 서열은 특허 문서의 서지적 사항과 함께 색인화되어 데이터베이스에 저장된다(S115). 특허 문서의 서지적 사항은 출원일, 출원인, 특허권자, 특허 기간, 발명의 명칭 등을 포함한다. 특허청구범위내의 서열 번호에 해당하는 서열을 추출한 후 서지적 사항과 함께 색인화하여 데이터베이스에 저장한 후 사용자가 찾고자 하는 서열 정보를 데이터베이스에서 검색하여 제공한다.
도 1b는 본 발명에 따른 서열 색인 방법의 다른 실시예의 흐름을 도시한 도면이다.
도 1b를 참조하면, 특허 문서의 검색을 위한 검색식을 입력받는다(S150). 입력받은 검색식을 기초로 특허 문서가 저장된 데이터베이스를 검색하여 해당하는 특허 문서를 획득한다(S155). 특허 문서를 획득하기 위한 검색식에는 특허 번호, 출원 번호, 특허권자, 출원공개번호 또는 등록공고번호 등이 있다.
예를 들어, 특허 문서를 검색하기 위한 검색식이 특허권자인 경우에 데이터베이스에는 해당하는 특허 문서가 다수가 존재할 수 있다. 이 경우에 다수의 특허 문서를 본 발명에 따라 순차적으로 색인화한다.
획득한 특허 문서에서 서열 목록 및 특허청구범위내에 포함된 서열 번호를 추출한다(S160). 그리고, 추출한 서열 목록에서 추출한 서열 번호에 해당하는 서열을 추출한다(S165). 서열 번호, 서열 목록 및 서열의 추출과정은 도 1a에서 상세히 설명하였다.
특허청구범위 내에는 하나 이상의 서열 번호가 존재하므로 특허청구범위 내에서 추출한 서열 번호의 개수를 계수한다(S170). 이 때, 동일한 서열 번호를 중복하여 계수하지 않는다. 또한, 특허 문서 전체에 나타난 서열 번호의 개수를 계수할 수 있다.
추출된 서열과 특허 문서의 서지적 사항 및 서열 번호의 개수를 서열 번호와 함께 색인화하여 데이터베이스에 저장한다(S175). 데이터베이스에 색인화되어 저장된 서열 정보는 사용자의 요구에 따라 제공된다(S180). 사용자는 서열 번호를 기초로 데이터베이스에 저장된 서열 정보를 요구하거나, 서지적 사항인 특허권자를 기초로 데이터베이스에 저장된 서열 정보를 요구할 수 있다.
도 2는 본 발명에 따른 서열 색인 시스템의 일 실시예의 구성을 도시한 도면이다.
도 2를 참조하면, 서열 색인 시스템은 입력부(200), 문서 획득부(210), 제1데이터베이스(220), 제1추출부(230), 제2추출부(240), 제2데이터베이스(250) 및 표시부(260)로 구성된다. 제1추출부는 서열 번호 추출부 및 서열 목록 추출부로 구성된다.
입력부(200)는 특허 문서의 서열 정보를 검색하고자 하는 사용자로부터 검색식을 입력받는다. 문서 획득부(210)는 입력된 검색식을 기초로 특허 문서가 저장된 제1데이터베이스(220)를 검색하여 해당하는 특허 문서를 획득한다. 예를 들어, 입력부(200)가 검색식으로 특허 번호, 출원번호, 특허권자 중 어느 하나의 정보를 입력 받으면, 문서 획득부(210)는 특허 번호, 출원번호 또는 특허권자를 기초로 제1데이터베이스(220)를 검색하여 해당하는 특허 문서를 획득한다.
제1데이터베이스(220)는 각국의 특허청에 구비되어 특허 문서를 제공하는 데이터베이스이거나 별도의 서버에 설치되어 특허 문서를 제공하는 데이터베이스이다. 예를 들어, 특허 번호를 기초로 미국 특허청의 특허 문서를 검색하고자 할 경우에 미국 특허청의 특허 검색 사이트 주소인 URL을 통해 접속한 후 특허 번호에 해당하는 특허 문서를 가져온다.
또한, 문서 획득부(210)는 제1데이터베이스부(220)로부터 추출한 특허 문서를 파싱한다. 예를 들어, 특허 문서가 HTML로 작성된 경우에는 HTML 태그를 제거하고 단락과 단락사이의 여백등을 제거한 후 문자열로 전환한다. 또한 특허 문서가 소정의 문서 작성 방식으로 작성되고 문서 작성 방식에 따른 태그 등이 특허 문서에 포함된 경우에는 그 태그들을 제거한 후 문자열로 전환한다.
제1추출부(230)는 문서 획득부(210)에 의해 획득된 특허 문서로부터 서열 번호 및 서열 목록을 추출한다. 예를 들어, 제1추출부(230)는 문자열로 전환된 특허 문서에서 'SEQ ID NO:'를 이용하여 서열 번호를 추출한다. 서열 번호를 표현하는 방식은 각국마다 다를 수 있으므로, 각 국의 정형화된 표현 양식을 기초로 서열 번호를 추출한다. 제1추출부(230)는 추출한 서열 번호 및 서열 목록을 각각의 문자열 변수에 저장한다. 특허의 권리범위와 관련된 서열 정보를 색인화하고자 하는 경우에 제1추출부(230)는 특허청구범위 내에 저장된 서열 번호를 추출한다.
제2추출부(240)는 추출한 서열 번호를 기초로 추출한 서열 목록에서 해당하는 서열을 추출한다. 구체적으로, 제2추출부(240)는 제1추출부(230)에 의해 문자열 변수에 저장된 서열 목록을 문자열 변수에 저장된 서열 번호를 기초로 검색하여 서열 번호에 해당하는 서열을 추출한다. 그리고, 서열 번호 및 서열 번호에 해당하는 서열은 제2데이터베이스(250)에 저장된다.
표시부(260)는 색인화된 서열 정보를 서지적 사항과 함께 사용자에게 표시한다. 표시장치로는 프린터, 모니터 등이 이용될 수 있다.
도 3은 본 발명에 따른 서열 색인 시스템의 다른 실시예의 구성을 도시한 도면이다.
도 3을 참조하면, 서열 색인 시스템은 청구항 추출부(310), 서열 개수 추출부(320), 서열 목록 추출부(330), 출원인 추출부(340), 서열 번호 추출부(350) 및 서열 추출부(360)로 구성된다.
청구항 추출부(310)는 특허 문서(300)에서 특허청구범위(312)를 추출한다. 청구항 추출부(310)는 특허청구범위(312)의 청구항들을 문자열 변수에 저장한다. 서열 번호 추출부(350)는 추출된 청구항(312)으로부터 서열 번호(352 내지 356)를 추출한다.
서열 개수 추출부(320)는 특허 문서(300) 또는 특허청구범위(312) 내에 포함된 서열 번호의 개수를 계수한다. 중복되는 서열 번호는 계수하지 않는다.
서열 목록 추출부(330)는 특허 문서(300)내에 포함된 서열 목록(332)을 추출한다. 출원인 추출부(340)는 특허 문서(300)내에 포함된 서지적 사항을 추출한다. 서지적 사항은 출원인 정보, 특허권자 정보, 특허 번호등을 포함한다.
서열 추출부(360)는 서열 번호 추출부(350)에 의해 추출된 서열 번호(352 내지 356)를 기초로 서열 목록 추출부(330)에 의해 추출된 서열 목록(332)을 검색하여 해당하는 서열(362 내지 366)을 추출한다.
도 4는 본 발명에 따른 서열 색인 시스템이 적용된 전체 시스템을 도시한 도면이다.
도 4를 참조하면, 본 발명에 따른 서열 색인 시스템(410)은 적어도 하나 이상의 단말(400 내지 404) 및 적어도 하나 이상의 검색서버(420 내지 424)와 연결된다. 검색서버(420 내지 424)는 적어도 하나 이상의 데이터베이스(430,432)와 연결된다.
사용자가 단말(400 내지 402)을 통해 검색하고자 하는 특허 번호를 입력하면, 서열 색인 시스템(410)은 검색 서버(420 내지 424)중 어느 하나에 접속하여 특허 번호에 해당하는 특허 문서를 요구한다. 검색 서버(420 내지 424)는 특허 번호에 해당하는 특허 문서가 저장된 데이터베이스(430,432)를 검색하여 특허 문서를 추출하여 서열 색인 시스템(410)으로 전달한다.
그러면, 서열 색인 시스템(410)은 특허 문서로부터 서열 번호, 서열 목록, 서열 번호의 개수 및 서지적 사항들을 추출하여 데이터베이스(430,432)에 저장한다. 색인화되지 않은 특허 문서 및 서열 번호등을 추출하여 색인화한 서열 정보는 동일한 데이터베이스에 저장되어 관리되거나 각각 별도의 데이터베이스에 저장될 수 있다.
서열 색인 시스템(410)의 일 실시예는 Mysql로 구성된 DBMS 데이터베이스 테이블과 PERL로 작성된 프로그램으로 구성된다. 이 때, 사전 준비 환경으로서, Mysql 또는 그에 상응하는 기능을 가진 RDBMS, ActivePERL가 필요하고 PERL Interpretor Windows 계열 OS, UNIX 계열 OS 계열, LINUX 계열 OS 중 어느 하나가 필요하다. 또한, Internet connectivity intranet 환경에서 이용시 LAN Connectivity RDMBS와 PERL은 서로 독립된 시스템에서 사용가능한다. 이하에서, 미국 특허 문서를 기초로 PERL을 이용한 서열 색인 시스템의 구현 예에 대해 설명한다.
PERL을 이용하여 구현하는 경우, 특허 번호를 인수(argument)로 넘겨받아 특허 전문을 입수한 후 문자열 변수에 저장하고, 전문에 대한 문자열에서 정규 표현식(regular expression)을 통해 특허청구범위를 추출하고, 추출된 특허청구범위 전문을 반환한다. 이 때, 특허청구범위 추출에 사용되는 정규 표현식은 다음과 같다.
"\nClaims\n((.|\n)*)\n Description\n"
그리고, 특허 전문에 대한 문자열 변수에서 정규식을 통해 서열 번호의 개수를 추출하고, 추출된 서열 번호의 개수를 정수형 변수에 할당한다. 이 때, 서열 번호 개수의 추출에 사용되는 정규 표현식은 다음과 같다.
"NUMBER\sOF\s(SEQ\sID\sNOS|SEQUENCES):\s(.*)\n"
다음 단계로, 특허 전문에 대한 문자열 변수에서 정규 표현식을 통해 서열 목록을 추출하고, 추출된 서열 목록을 반환한다. 이 때, 서열 목록 추출에 사용되는 정규 표현식은 다음과 같다.
"\s+SEQUENCE LISTING\n)).|\n)*"
추출된 특허 청구범위에 대한 문자열 변수에서 정규 표현식을 통해 서열 번호들을 추출하고, 추출된 서열 번호들에 대한 중복 검사 및 중복 제거한 후, 추출된 서열 번호들을 배열(array)에 저장하여 반환한다. 이 때, 서열 번호들의 추출에 사용되는 정규 표현식은 다음과 같다.
"SEQ\s+ID\s+NO(:\s|(\.\s))\s*([0-9]+)"
서열 목록 및 서열 번호 추출 후, 서열 목록에 대한 문자열 변수에서 배열에 저장된 서열 번호를 이용해 만든 정규 표현식을 통해 서열 번호에 해당하는 서열을 추출한다. 그리고, 추출된 서열을 문자열 형식으로 반환하다.
특허 문서로부터 서지적 사항을 추출하기 위해, 특허 문서에 대한 문자열 변수에서 정규 표현식을 통해 출원인 항목을 추출하고, 추출된 출원인 정보를 문자열 변수에 할당한 후, 저장된 문자열 변수를 반환한다. 출원인 외에 특허 번호 등의 필요한 서지적 사항을 동일한 방식으로 추출한다. 이 때, 출원인 정보를 추출하기 위한 정규 표현식은 다음과 같다.
"Assignee:\n(\s*)\n(.*)\n"
각각의 단계에서 추출된 특허번호, 출원인, 서열 개수, 청구항에 언급된 서열 개수, 청구항에 언급된 서열 목록 등을 변수에 할당하고, 데이터베이스에 접속하여 SQL insert 문을 통해 각각의 변수를 bind-parameter로 데이터베이스에 입력한다.
도 5 내지 도 8은 본 발명에 따른 서열 색인 방법의 각 단계에서의 실시예를 도시한 도면이다.
도 5는 미국특허청에 인터넷 접속을 통해 문자열을 추출하는 예를 도시한 도면이다. 도 5에는 특허청구범위가 도시되어 있으며 서열 번호는 'SEQ ID NO:'로 구별된다. 특허청구범위에는 서열 번호가 4개가 존재하나 동일한 서열 번호가 2개가 존재하며 결국 특허청구범위로부터 2개의 서열 번호를 추출할 수 있다.
도 6은 도 5에서 추출된 서열 번호 'SEQ ID NO:108'에 대한 서열 목록을 도시한 도면이다. 도 6에는 추출한 서열 번호에 대한 정보 및 서열 번호에 해당하는 서열 목록이 도시되어 있다.
도 7은 서열 번호에 해당하는 서열 목록이 데이터베이스에 저장되는 일 예를 도시한 도면이다. 데이터베이스는 서열 번호에 해당하는 서열 목록이 색인화되어 저장되며 사용자의 요구에 따라 해당하는 서열 목록을 제공한다.
도 8은 서열 색인 시스템을 통해 색인화되는 서열 정보를 사용자에게 표시하는 단계를 도시한 도면이다. 서열 번호, 서열 목록, 서열 번호의 개수 및 서지적 사항을 특허 문서로부터 추출된 후 그 결과 데이터가 사용자에게 표시된다. 서열 정보는 권리자 정보와 함께 표현되며 소정의 출력 양식에 따라 화면이나 종이 및 기타 표시장치를 통해 사용자에게 표시되고 데이터베이스에 저장된다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 특허 문서내 서열의 위치 분석 및 태깅 과정에서 정규 표현식을 이용하여 서열의 범위 인식을 동시에 수행함으로써, 서열의 추출, 저장 및 표현기법을 통해 보다 정확하고 빠르게 서열 정보를 획득할 수 있다.
또한, 서열 번호에 따른 특허 문서의 검색 및 분류 작업이 인터넷을 통해 수신된 특허 문서에 대해 수행되는 경우에 검색시간이 단축되고 정확한 검색 결과가 제공된다.
본 발명에 따른 서열 색인 시스템은 정규 표현식에 기반한 특허 문서내 서열 분리기로서, 유전자 서열을 담고 있는 다른 데이터베이스와 연동이 가능하며, 유전자 서열을 담고 있는 일반 데이터베이스와 특허 권리를 갖는 서열 정보를 연계하여 분석하는데 사용 가능하다.
특허청구범위에 명시된 서열은 일반 유전자 서열과는 구별되는 산업상 유용한 정보를 포함하거나 질병의 원인으로 알려진 서열이거나 특이적인 변형 상태애 데한 정보를 포함하고 있다. 따라서, 본 발명은 서열의 권리를 분석하여 관련 기술에 대한 특허 전략을 수립하는데 도움을 준다.
유전자 서열의 정상 상태와 변형 상태(예를 들어, 돌연변이와 같이 서열이 insertion, deletion, substitution된 경우)를 비교하면, 유전자의 기능에 대한 정보를 쉽게 얻을 수 있고, 이와 관련된 진단 제품 또는 치료제 개발에 도움을 준다. 따라서, 특허청구범위에 명시된 유전자 서열을 단시간에 추출하고, 동시에 그 권리자와 용도를 파악하는 본 발명은 유사한 서열의 권리에 대한 특허 전략을 수립하는데 도움을 준다.
또한, 본 발명에 따른 서열 색인 방법은 질병 관련 서열 또는 특정 기능에 대한 서열을 단시간에 추출하여 대량으로 확보하고, 이에 대한 권리를 분석하여 상업적 이용을 모색하는데 유용하다.
도 1a는 본 발명에 따른 서열 색인 방법의 일 실시예의 흐름을 도시한 흐름도,
도 1b는 본 발명에 따른 서열 색인 방법의 다른 실시예의 흐름을 도시한 도면,
도 2는 본 발명에 따른 서열 색인 시스템의 일 실시예의 구성을 도시한 도면,
도 3은 본 발명에 따른 서열 색인 시스템의 다른 실시예의 구성을 도시한 도면,
도 4는 본 발명에 따른 서열 색인 시스템이 적용된 전체 시스템을 도시한 도면,
도 5는 미국특허청에 인터넷 접속을 통해 서열 번호를 추출하는 예를 도시한 도면,
도 6은 도 5에서 추출된 서열 번호 'SEQ ID NO:108'에 대한 서열을 추출하는 예를 도시한 도면,
도 7은 서열 번호에 해당하는 서열 목록이 데이터베이스에 저장되는 일 예를 도시한 도면, 그리고,
도 8은 서열 색인 시스템을 통해 색인화된 서열 정보를 사용자에게 표시하는 일 예를 도시한 도면이다.

Claims (25)

  1. 특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 서열 번호 및 서열 목록을 포함하는 상기 특허 문서를 파싱하는 단계;
    상기 파싱된 특허 문서로부터 서열 번호 및 서열 목록을 추출하는 제1추출단계; 및
    상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 제2추출단계;를 포함하는 것을 특징으로 하는 서열 색인 방법.
  2. 제 1항에 있어서,
    상기 특허 문서는 WIPO의 서열 목록 작성 표준을 반영하여 작성되는 것을 특징으로 하는 서열 색인 방법.
  3. 제 1항에 있어서,
    상기 파싱 단계는 HTML로 작성된 특허 문서에서 HTML 태그 및 여백을 제거한 후 문자열로 전환하는 단계를 포함하는 포함하는 것을 특징으로 하는 서열 색인 방법.
  4. 제 1항에 있어서, 상기 제1추출단계는,
    상기 특허 문서에서 특허청구범위를 추출하는 단계;
    상기 특허청구범위내의 서열 번호를 추출하는 단계; 및
    상기 특허 문서에서 서열 목록을 추출하는 단계;를 포함하는 것을 특징으로 하는 서열 색인 방법.
  5. 제 1항에 있어서,
    상기 제1추출단계는 추출된 서열 번호의 중복성을 검사하여 중복된 서열 번호를 제거하는 단계를 포함하는 것을 특징으로 하는 서열 색인 방법.
  6. 제 1항에 있어서,
    상기 추출된 서열 번호의 개수를 계수하는 단계를 더 포함하는 것을 특징으로 하는 서열 색인 방법.
  7. 제 6항에 있어서,
    상기 계수 단계는 추출된 서열 번호와 중복되지 않는 서열 번호를 계수하는 단계를 포함하는 것을 특징으로 서열 색인 방법.
  8. 제 1항에 있어서,
    상기 특허 문서로부터 서지적 사항을 추출한 후, 상기 서지적 사항 및 상기 추출된 서열 번호에 해당하는 서열을 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 서열 색인 방법.
  9. 제 8항에 있어서,
    상기 서지적 사항은 특허권자, 추출된 서열 번호의 개수, 특허번호를 포함하는 것을 특징으로 하는 서열 색인 방법.
  10. 제 1항에 있어서,
    상기 서지적 사항 및 추출한 서열 번호에 해당하는 서열을 표시하는 단계를 더 포함하는 것을 특징으로 하는 서열 색인 방법.
  11. 특허 문서 검색을 위한 검색식을 입력받는 단계;
    적어도 하나 이상의 특허 문서가 저장된 제1데이터 베이스로부터 상기 검색식을 기초로 특허 문서를 검색하고 획득하는 단계;
    상기 획득한 특허문서에서 서열 목록 및 특허청구범위 내의 서열 번호를 추출하는 제1추출단계; 및
    상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 제1추출단계;를 포함하는 것을 특징으로 하는 서열 색인 방법.
  12. 제 11항에 있어서,
    상기 특허 문서 획득 단계는 상기 제1데이터 베이스가 위치한 사이트의 URL에 접속하여 상기 검색식에 해당하는 특허 문서를 획득하는 단계를 포함하는 것을 특징으로 하는 서열 색인 방법.
  13. 제 11항에 있어서,
    상기 추출된 서열 번호에 해당하는 서열 정보 및 상기 특허 문서의 서지적 사항을 제2데이터 베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 서열 색인 방법.
  14. 제 13항에 있어서,
    상기 특허 문서 획득 단계는 상기 검색식에 해당하는 특허 문서의 서열 정보가 상기 제2데이터 베이스에 존재하면 상기 제2데이터 베이스에 저장된 서열 정보를 제공하는 단계를 포함하는 것을 특징으로 하는 서열 색인 방법.
  15. 제 11항에 있어서,
    상기 특허 문서 획득 단계는 특허 번호, 출원인, 특허권자 중 어느 하나를 검색식으로 하여 특허 문서를 검색하는 단계를 포함하는 것을 특징으로 하는 서열 색인 방법.
  16. 서열 번호 및 서열 목록을 포함하는 특허 문서를 획득하는 문서 획득부;
    특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 상기 특허 문서로부터 서열 목록을 추출하는 서열 목록 추출부;
    특허 문서가 속한 국가의 정형화된 표현 양식을 기초로 상기 특허 문서로부터 서열 번호를 추출하는 서열 번호 추출부; 및
    상기 추출된 서열 목록에서 상기 추출된 서열 번호에 해당하는 서열을 추출하는 서열 추출부;를 포함하는 것을 특징으로 하는 서열 색인 시스템.
  17. 제 16항에 있어서,
    상기 서열 번호 추출부는 상기 문자열을 검색하여 상기 특허 문서의 특허청구범위내에 포함된 서열 번호를 추출하는 것을 특징으로 하는 서열 색인 시스템.
  18. 제 16항에 있어서,
    상기 문서 획득부는 HTML로 작성된 특허 문서에서 HTML 태그 및 여백을 제거한 특허 문서를 문자열로 전환하는 것을 특징으로 하는 서열 색인 시스템.
  19. 제 16항에 있어서,
    상기 추출된 서열 번호에 해당하는 유전자 서열 및 상기 특허 문서의 서지적 사항을 저장하는 데이터베이스부를 더 포함하는 것을 특징으로 하는 유전자 서열 색인 시스템.
  20. 제 16항에 있어서,
    상기 상기 서지적 사항과 함께 추출한 서열 번호에 해당하는 서열을 표시하는 표시부를 더 포함하는 것을 특징으로 하는 서열 색인 시스템.
  21. 제 16항에 있어서,
    상기 특허 문서의 검색을 위한 검색식을 입력받는 입력부;를 더 포함하고,
    상기 문서 획득부는 적어도 하나 이상의 특허 문서가 저장된 제1데이터 베이스로부터 상기 검색식을 기초로 특허 문서를 획득하는 것을 특징으로 하는 서열 색인 시스템.
  22. 제 16항에 있어서,
    상기 문서 획득부는 제1데이터 베이스가 위치한 사이트의 URL에 접속하여 상기 검색식에 해당하는 특허 문서를 검색하여 획득하는 단계를 포함하는 것을 특징으로 하는 유전자 서열 색인 방법.
  23. 제 16항에 있어서,
    상기 추출된 서열 번호에 해당하는서열 및 상기 특허 문서의 서지적 사항을 저장하는 제2데이터 베이스를 더 포함하는 것을 특징으로 하는 서열 색인 시스템.
  24. 제 23항에 있어서,
    상기 문서 획득부는 상기 검색식에 해당하는 특허 문서의 서열 정보가 상기 제2데이터 베이스에 존재하면 상기 제2데이터 베이스에 저장된 서열 정보를 제공하는 것을 특징으로 하는 서열 색인 시스템.
  25. 제 1항 또는 제 11항에 기재된 서열 색인 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040010400A 2004-02-17 2004-02-17 서열 색인 방법 및 그 시스템 KR100601941B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020040010400A KR100601941B1 (ko) 2004-02-17 2004-02-17 서열 색인 방법 및 그 시스템
EP05002543A EP1571563A3 (en) 2004-02-17 2005-02-07 Sequence indexing method and system
US11/056,774 US20050182571A1 (en) 2004-02-17 2005-02-11 Sequence indexing method and system
JP2005038467A JP2005235209A (ja) 2004-02-17 2005-02-15 配列索引方法及びそのシステム
CNA2005100697952A CN1684071A (zh) 2004-02-17 2005-02-17 序列索引方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040010400A KR100601941B1 (ko) 2004-02-17 2004-02-17 서열 색인 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20050082051A true KR20050082051A (ko) 2005-08-22
KR100601941B1 KR100601941B1 (ko) 2006-07-14

Family

ID=34747925

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040010400A KR100601941B1 (ko) 2004-02-17 2004-02-17 서열 색인 방법 및 그 시스템

Country Status (5)

Country Link
US (1) US20050182571A1 (ko)
EP (1) EP1571563A3 (ko)
JP (1) JP2005235209A (ko)
KR (1) KR100601941B1 (ko)
CN (1) CN1684071A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101188886B1 (ko) 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472121B2 (en) * 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US20130198182A1 (en) * 2011-08-12 2013-08-01 Sanofi Method, system and program for comparing claimed antibodies with a target antibody
CN102684999B (zh) * 2012-04-20 2015-05-20 中兴通讯股份有限公司 数据包处理方法及装置
CN109448793B (zh) * 2018-10-15 2021-04-20 智慧芽信息科技(苏州)有限公司 基因序列的权利范围标注、检索及信息标注方法、系统
US11880403B2 (en) * 2021-10-08 2024-01-23 EMC IP Holding Company LLC Document data management via graph cliques for layout understanding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295542B1 (en) * 1998-10-02 2001-09-25 National Power Plc Method and apparatus for cross-referencing text
US6249784B1 (en) * 1999-05-19 2001-06-19 Nanogen, Inc. System and method for searching and processing databases comprising named annotated text strings
JP3881238B2 (ja) * 2001-12-28 2007-02-14 セレスター・レキシコ・サイエンシズ株式会社 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体
US20040015481A1 (en) * 2002-05-23 2004-01-22 Kenneth Zinda Patent data mining

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101188886B1 (ko) 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
US9098490B2 (en) 2010-10-22 2015-08-04 Samsung Sds Co., Ltd. Genetic information management system and method

Also Published As

Publication number Publication date
CN1684071A (zh) 2005-10-19
US20050182571A1 (en) 2005-08-18
JP2005235209A (ja) 2005-09-02
EP1571563A2 (en) 2005-09-07
KR100601941B1 (ko) 2006-07-14
EP1571563A3 (en) 2006-11-02

Similar Documents

Publication Publication Date Title
US11748323B2 (en) System and method of search indexes using key-value attributes to searchable metadata
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
Franzén et al. Protein names and how to find them
EP2041672B1 (en) Methods and apparatus for reusing data access and presentation elements
EP1745396B1 (en) Document information mining tool
US9367581B2 (en) System and method of quality assessment of a search index
US9558234B1 (en) Automatic metadata identification
JP2005235209A (ja) 配列索引方法及びそのシステム
US20020132258A1 (en) Knowledge database and method for constructing knowledge database
Iser et al. A problem meta-data library for research in SAT
Wren A scalable machine-learning approach to recognize chemical names within large text databases
US20080033953A1 (en) Method to search transactional web pages
US20050071333A1 (en) Method for determining synthetic term senses using reference text
CN111710365B (zh) 一种基于本体的蛋白质/基因同义词表构建方法
Moftah et al. Methods to access structured and semi-structured data in bioinformatics databases: A perspective
CN111061755A (zh) 基于文献的药物警戒方法和系统
Wang et al. WikiMed-DE: Constructing a Silver-Standard Dataset for German Biomedical Entity Linking using Wikipedia and Wikidata.
Berman Nomenclature-based data retrieval without prior annotation: facilitating biomedical data integration with fast doublet matching
Marshall et al. Aggregating automatically extracted regulatory pathway relations
Svatek et al. URL as starting point for WWW document categorization.
Cichoń National Library of Poland Descriptors model as an attempt of opening library data for reuse
Barreaux et al. An Experiment in Annotating Animal Species Names from ISTEX Resources
Briscoe et al. Intelligent information access from scientific papers
Qiao et al. From Text-based Genome, Population Variations, and Transcriptome Datafiles to SQLite Database and Web Application: A Bioinformatical Study on Alfalfa
Marshall et al. Linking ontological resources using aggregatable substance identifiers to organize extracted relations

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee