KR20190062388A - 전자 기록물 태깅을 위한 시스템 및 방법 - Google Patents

전자 기록물 태깅을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20190062388A
KR20190062388A KR1020197006605A KR20197006605A KR20190062388A KR 20190062388 A KR20190062388 A KR 20190062388A KR 1020197006605 A KR1020197006605 A KR 1020197006605A KR 20197006605 A KR20197006605 A KR 20197006605A KR 20190062388 A KR20190062388 A KR 20190062388A
Authority
KR
South Korea
Prior art keywords
classification
template
electronic record
unit
score
Prior art date
Application number
KR1020197006605A
Other languages
English (en)
Other versions
KR102448370B1 (ko
Inventor
마이클 모스크윈스키
알렉스 필딩
케빈 크리스토퍼 할
킴벌리 렘보
Original Assignee
립코드 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 립코드 인크. filed Critical 립코드 인크.
Publication of KR20190062388A publication Critical patent/KR20190062388A/ko
Application granted granted Critical
Publication of KR102448370B1 publication Critical patent/KR102448370B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

전자 기록물의 특정 영역 또는 구역으로부터 추출되고 분석된 정보를 사용하여 기록물 관리 시스템에서 기록물을 분류하고 태깅하는 시스템 및 방법이 제공된다. 분류 템플릿은 하나 이상의 태그에 대응할 수 있다. 분류 템플릿은 하나 이상의 분류 유닛에 의해 정의될 수 있다. 전자 기록물은 복수의 분류 템플릿에 대해 매칭될 수 있고, 분류 템플릿에 대한 근접도에 기초하여, 분류 템플릿에 대응하는 하나 이상의 태그가 할당될 수 있다.

Description

전자 기록물 태깅을 위한 시스템 및 방법
본 출원은 2016년 8월 9일 출원된 미국 가출원 제62/372,556호의 이익을 청구하고, 이 미국 출원은 본 명세서에 완전히 참조로서 원용된다.
정보는 종종 물리적 문서 파일 상에 저장될 수 있다. 그러나, 이러한 물리적 저장 시스템은 무한 기간 동안 극도로 큰 체적의 공간의 이용 가능성을 요구할 수 있다. 예를 들어, 물리적 문서 파일은 기록물 보관소(archive), 창고, 도서관, 및/또는 문서 저장소(valut)에 패킹될 수도 있다. 물리적 문서는 일단 저장되면, 예로서 문서의 손상, 파괴 또는 열화(예를 들어, 자연적인 열화)를 방지하기 위한 일상적인 유지 관리가 또한 필요할 수도 있다. 더욱이, 물리적 문서 파일에 저장된 정보의 액세스는 고비용이고 시간 소모적일 수도 있다. 물리적 문서를 위치확인하여 운반하는 것이 어려울 수 있을 뿐만 아니라, 일단 물리적 문서가 식별되면 물리적 파일로부터 정보를 추출하는 것은 또한 마찬가지로 시간 소모적일 수 있다.
대안으로서, 물리적 문서로부터의 정보는 전자 매체에 전송되어 메모리에 저장될 수도 있다. 몇몇 경우에, 정보가 생성되어 전자식으로 저장될 수 있다. 이는 저장 공간의 필요성 및 저장 중의 유지 보수를 피할 수 있다.
전자 기록물로서 저장되어 있어도, 정렬을 위한 무수히 많은 다른 전자 파일이 존재할 때 특정 정보 및/또는 문서는 위치확인 및 격리가 어려울 수도 있다. 예를 들어 최대 수천만개 또는 그 초과의 기록물을 보유할 수 있는 대규모 기록물 관리 시스템에 있어서, 택소노미(taxonomy)의 구성요소로의 기록물의 수동 맵핑과 같은 전통적인 분류 방법은 매우 비효율적일 수 있다. 전자 기록물의 효율적이고 정확한 분류 및 태깅 및 그 이후의 정확한 리트리빙(retrieval)을 위한 시스템 및 방법에 대한 필요성이 여기서 인식되고 있다.
전자 기록물의 특정 영역 또는 구역으로부터 추출되고 분석된 정보를 사용하여 기록물 관리 시스템에서 기록물을 분류하고 태깅하기 위한 시스템 및 방법이 제공된다. 몇몇 경우에, 전자 기록물은 분류되고 태깅될 수 있다. 몇몇 경우에, 전자 기록물 내의 특정 영역 또는 구역은 분류되고 태깅될 수 있다. 기록물 및/또는 영역 또는 구역은 기록물 택소노미의 하나 이상의 요소로 분류되고 태깅될 수도 있다. 이러한 분류 및 태깅은 적어도 부분적으로 자연어에 기초할 수도 있고 호환될 수도 있다. 이러한 분류 및 태깅은 적어도 부분적으로 사용자 액티비티 및/또는 기록물 액티비티에 기초할 수도 있고 호환될 수도 있다. 유리하게는, 본 명세서에 제공된 시스템 및 방법을 사용하여 분류되고 태깅된 기록물은 그 후에 예를 들어 검색 키워드보다 문맥 관련성이 더 높을 수도 있는 사용자 액티비티 및/또는 기록물 액티비티에 기초하여 리트리빙될 수도 있다. 본 명세서의 시스템 및 방법은 감독되지 않고 자동화된 태깅을 위한 기록물 관리 시스템의 트레이닝(training)을 허용할 수도 있다.
양태에서, 전자 기록물을 분류하기 위한 컴퓨터 구현 방법이 제공되고, 이 방법은 하나 이상의 컴퓨터 프로세서의 도움으로 분류 템플릿의 라이브러리에 액세스하는 단계 - 분류 템플릿의 라이브러리의 각각의 분류 템플릿은 하나 이상의 태그 및 하나 이상의 분류 유닛을 포함하고, 분류 유닛은 (i) 전자 기록물의 영역 또는 구역 및 (ii) 분류 방법을 포함함 -; 전자 기록물을 분류 템플릿의 라이브러리의 제1 분류 템플릿과 매칭시키는 단계; 전자 기록물에 대한 제1 분류 템플릿에 대한 템플릿 근접도 스코어를 결정하는 단계 - 템플릿 근접도 스코어는 전자 기록물 내의 영역 또는 구역에 배치된 콘텐츠에 적용된 분류 방법에 적어도 부분적으로 기초함 -; 및 템플릿 근접도 스코어에 적어도 부분적으로 기초하여 제1 분류 템플릿의 하나 이상의 태그를 전자 기록물에 할당하는 단계를 포함한다.
몇몇 실시예에서, 방법은 분류 템플릿의 라이브러리의 제2 분류 템플릿에 대해 상기를 반복하는 단계를 더 포함할 수 있다.
몇몇 실시예에서, 제1 분류 템플릿의 하나 이상의 태그는, 템플릿 근접도 스코어가 사전결정된 임계 스코어보다 큰 경우, 전자 기록물에 할당된다.
몇몇 실시예에서, 적어도 2개의 분류 템플릿은 동일한 분류 유닛을 공유한다.
몇몇 실시예에서, 방법은 제1 분류 템플릿 내의 각각의 분류 유닛에 대한 유닛 근접도 스코어를 결정하는 단계를 더 포함할 수 있고, 유닛 근접도 스코어는 전자 기록물 내의 분류 유닛의 영역 또는 구역 내에 배치된 콘텐츠에 적용되는 분류 유닛의 분류 방법에 적어도 부분적으로 기초하고, 템플릿 근접도 스코어는 각각의 분류 유닛에 대해 결정된 유닛 근접도 스코어들의 집계이다.
몇몇 실시예에서, 분류 방법은 (i) 정규 표현식의 패턴, (ii) 품사(part of speech)의 패턴, 및 (iii) 하나 이상의 분류 알고리즘으로 이루어진 그룹의 적어도 하나의 구성원이다.
몇몇 실시예에서, 유닛 근접도 스코어는 2진수이다.
몇몇 실시예에서, 방법은 사용자로부터 전자 기록물에 제1 태그를 할당하기 위한 명령어를 수신하는 단계; 전자 기록물에 제1 태그를 할당하는 단계; 전자 기록물의 콘텐츠를 제1 태그로서 분류하기 위한 트레이닝 자료로서 하나 이상의 데이터 베이스에 저장하는 단계; 및 전자 기록물의 분류 방법을 트레이닝 자료로부터의 제1 태그로서 학습하는 단계를 더 포함할 수 있다.
몇몇 실시예에서, 분류 템플릿의 라이브러리는 그래프 데이터베이스로부터 액세스되고, 그래프 데이터베이스는 분류 템플릿의 라이브러리 및 분류 유닛의 라이브러리를 포함한다.
몇몇 실시예에서, 전자 기록물을 분류 템플릿들의 라이브러리의 제1 분류 템플릿과 매칭하는 단계는, 제1 분류 템플릿의 각각의 분류 유닛에 대해, 전자 기록물의 영역 또는 구역에 배치된 콘텐츠에 분류 방법을 적용하는 단계를 포함한다.
다른 양태에서, 전자 기록물을 분류하기 위한 컴퓨터 시스템이 제공되고, 이 시스템은 하나 이상의 프로세서; 및 하나 이상의 프로세서에 통신가능하게 결합되고, 전자 기록물을 분류하는 방법을 구현하기 위해 개별적으로 또는 집합적으로 하나 이상의 프로세서에 의해 실행 가능한 명령어를 포함하는 메모리를 포함하고, 상기 방법은: 분류 템플릿에 대한 정의를 컴퓨터 네트워크를 통해 사용자로부터 수신하는 단계 - 분류 템플릿은 하나 이상의 태그 및 하나 이상의 분류 유닛에 의해 정의되고, 분류 유닛은 적어도 (i) 전자 기록물의 영역 또는 구역 및 (ii) 분류 방법에 의해 정의됨 -; 전자 기록물을 분류 템플릿과 매칭시키는 단계; 전자 기록물에 대한 분류 템플릿에 대한 템플릿 근접도 스코어를 결정하는 단계 - 템플릿 근접도 스코어는 전자 기록물의 영역 또는 구역에 배치된 콘텐츠에 적용된 분류 방법에 적어도 부분적으로 기초함 -; 및 분류 템플릿의 하나 이상의 태그를 템플릿 근접도 스코어에 적어도 부분적으로 기초하여 전자 기록물에 할당하는 단계를 포함한다.
몇몇 실시예에서, 방법은 분류 템플릿 내의 각각의 분류 유닛에 대한 유닛 근접도 스코어를 결정하는 것을 반복하는 단계를 더 포함하고, 유닛 근접도 스코어는 전자 기록물 내의 분류 유닛의 영역 또는 구역 내에 배치된 콘텐츠에 적용되는 분류 유닛의 분류 방법에 적어도 부분적으로 기초하고, 템플릿 근접도 스코어는 각각의 분류 유닛에 대해 결정된 유닛 근접도 스코어들의 집계이다.
몇몇 실시예에서, 제1 분류 템플릿의 하나 이상의 태그는, 템플릿 근접도 스코어가 사전결정된 임계 스코어보다 큰 경우, 전자 기록물에 할당된다.
몇몇 실시예에서, 분류 유닛은 페이지 인덱스 및 치수(dimension)를 더 포함한다.
몇몇 실시예에서, 방법은 그래픽 사용자 인터페이스 상에 전자 기록물의 하나 이상의 페이지를 디스플레이하는 것을 더 포함한다.
몇몇 실시예에서, 정의는 그래픽 사용자 인터페이스로부터 수신된다.
몇몇 실시예에서, 전자 기록물의 영역 또는 구역에 대한 정의는 그래픽 사용자 인터페이스 상의 전자 기록물의 하나 이상의 페이지에 걸쳐 디스플레이된다.
몇몇 실시예에서, 분류 방법은 (i) 정규 표현식의 패턴, (ii) 품사의 패턴, 및 (iii) 하나 이상의 분류 알고리즘으로 이루어지는 그룹의 적어도 하나의 구성원이다.
몇몇 실시예에서, 방법은 사용자로부터 전자 기록물에 제1 태그를 할당하기 위한 명령어를 수신하는 단계; 전자 기록물에 제1 태그를 할당하는 단계; 전자 기록물의 콘텐츠를 제1 태그로서 분류하기 위한 트레이닝 자료로서 하나 이상의 데이터 베이스에 저장하는 단계; 및 전자 기록물의 분류 방법을 트레이닝 자료로부터의 제1 태그로서 학습하는 단계를 더 포함한다.
몇몇 실시예에서, 분류 템플릿의 라이브러리는 그래프 데이터베이스로부터 액세스되고, 그래프 데이터베이스는 분류 템플릿의 라이브러리 및 분류 유닛의 라이브러리를 포함한다.
본 개시내용의 부가의 양태 및 장점은 본 개시내용의 단지 본 개시내용의 예시적인 실시예가 도시되고 설명되어 있는 이하의 상세한 설명으로부터 당 기술 분야의 숙련자에게 즉시 명백할 것이다. 실현될 수 있는 바와 같이, 본 개시내용은 다른 및 상이한 실시예가 가능하며, 그 다수의 상세는 다양한 명백한 관점에서 수정이 가능한데, 이들은 모두 본 개시내용으로부터 벗어나지 않는다. 이에 따라, 도면 및 설명은 한정적인 것이 아니라, 본질적으로 예시적인 것으로 간주되어야 한다.
참조로서 원용
본 명세서에서 언급된 모든 공보들, 특허들 및 특허 출원들은 각각의 개별 공보, 특허 또는 특허 출원이 참조로서 원용되도록 구체적으로 및 개별적으로 지시된 것과 동일한 정도로 본 명세서에 참조로서 원용되어 있다. 참조로서 원용된 공보들 및 특허들 또는 특허 출원들이 본 명세서에 포함된 개시내용과 모순되는 경우, 본 명세서는 임의의 이러한 모순되는 자료를 대체 및/또는 우선하도록 의도된다.
본 발명의 신규한 특징은 첨부된 청구범위에서 상세히 설명된다. 본 발명의 특징 및 장점에 대한 더 나은 이해는 본 발명의 원리가 이용되는 예시적인 실시예를 설명하고 있는 이하의 상세한 설명, 및 첨부 도면(또한 본 명세서에서 "도면" 및 "도")을 참조하여 얻어질 것이다.
도 1은 기록물 관리 시스템에서 기록물들을 분류하고 태깅하기 위한 방법의 단순화된 흐름도를 도시하고 있다.
도 2는 전자 기록물 내의 영역 또는 구역의 예를 도시하고 있다.
도 3은 품사 태그의 예를 도시하고 있다.
도 4는 분류 템플릿 라이브러리 및 분류 유닛 라이브러리의 그래프 데이터 베이스의 예를 도시하고 있다.
도 5는 개별 분류 유닛들로부터 유닛 근접도 스코어를 미세 조절하기 위한 피드백 루프를 도시하고 있다.
도 6은 본 개시내용의 방법을 구현하도록 프로그램된 컴퓨터 제어 시스템을 도시하고 있다.
본 발명의 다양한 실시예가 본 명세서에 도시되고 설명되어 있지만, 이러한 실시예들이 단지 예로서 제공된다는 것이 당 기술 분야의 숙련자에게 명백할 것이다. 본 발명으로부터 벗어나지 않고 수많은 변형, 변경 및 치환이 당 기술 분야의 숙련자에게 발생할 수도 있다. 본 명세서에 설명된 본 발명의 실시예에 대한 다양한 대안이 채용될 수도 있다는 것이 이해되어야 한다.
막대한 양의 정보가 정부 기관 및 개인 및 공공 단체의 모두에 의해, 물리적 문서 상에 저장될 수 있다. 이러한 문서는 대용량 기록물 보관소, 창고, 도서관 및/또는 문서 저장소에 보관할 수 있다. 그러나, 물리적 문서는 수동으로 위치확인하고, 액세스하고, 검색하고 그리고/또는 조작하는 것이 어려울 수도 있다. 더욱이, 이러한 물리적 문서로부터 정보를 위치확인하고, 액세스하고, 검색하고, 그리고/또는 추출하는 것이 어려울 수도 있다. 수동 방법은 고비용이고, 비효율적이며, 비신뢰성이고 그리고/또는 프라이버시 문제가 발생할 수 있다. 예를 들어, 대량의 문서의 수작업은 느리고, 에러가 나기 쉽고, 문서 내의 화학 물질로의 노출 및 체결구로의 노출에 기인하여 인간 건강에 해를 끼치고, 문서를 손상시키고, 그리고/또는 민감한 정보를 포함하는 문서가 수반될 때 보안 누설의 여지가 있을 수도 있다. 특정 서류의 위치확인 및/또는 이러한 서류의 운반은 힘들고 고비용일 수도 있다. 물리적 문서 상의 정보의 저장은, 예로서 물리적 문서가 분실되거나, 손상되거나, 다른점에서 실질적으로 품질 저하될 때(예를 들어, 잉크 퇴색, 시트의 무결성 약화 등), 파괴 및/또는 미스라벨링될(mislabeled) 때, 또한 손실되기 쉬울 수도 있다. 적어도 본 명세서에 설명된 이유들로, 물리적 문서 상에 저장된 정보의 추출은 어려울 수도 있으며, 이에 의해 막대한 양의 저장된 정보로의 액세스를 방해하거나 방지한다.
물리적 문서 상에 저장된 정보의 디지털 정보로의 변환은 정보를 디지털 검색을 통해 쉽게 액세스 가능하게 할 수 있다. 예를 들어, 물리적 문서는 예로서 카메라 또는 다른 이미징 디바이스 또는 광학 센서에 의해, 디지털 방식으로 스캐닝되거나 다른 방식으로 이미징될 수 있다. 몇몇 경우에, 많은 양의 물리적 문서(예를 들어, 수백만개)는 자동화 또는 반자동화 시스템 및 방법을 거쳐 전자 기록물로 변환될 수 있다. 이러한 자동화 또는 반자동화 시스템 및 방법은, 예로서 물리적 문서의 전자 기록물로의 변환 중에 그렇지 않으면 수동으로 수행되는 하나 이상의 프로세스를 자동화함으로써(예를 들어, 무질서한 문서 스택 정렬, 문서 스택으로부터의 시트 분리, 하나 이상의 체결구에 부착된 체결구 체결 해제, 디바이스 내로의 문서 공급, 문서 스캐닝, 문서의 배향, 스캐닝된 문서의 폐기 등), 많은 양의 물리적 문서를 효율적으로 그리고 실질적으로 균일하게 처리하도록 구성될 수 있다. 본 명세서에 설명된 시스템 및 방법은 물리적 문서의 전자 기록물로의 변환, 및 전자 기록물의 후속의 분류 및 태깅을 포함하는 자동화된 종단간 프로세스의 부분일 수 있다.
몇몇 경우에, 디지털화된 정보는 텍스트 인식[예를 들어, 광학 문자 인식(optical character recognition: OCR)]을 경험하는 것과 같이, 추가로 처리될 수 있다. 디지털화된 정보는 보안화된 장소에서 현장 또는 원격 서버에 저장될 수 있고, 그리고/또는 요청시 쉽고 신뢰적으로 복제될 수도 있다. 정보의 디지털화는 신뢰성을 향상시키고, 비용을 절감하며, 그리고/또는 민감한 정보의 노출을 회피할 수 있다. 그러나, 디지털 정보는 물리적 문서 상에 저장된 정보보다 더 쉽게 검색될 수도 있고, 심지어 전자 기록물로서 디지털화 후에 타겟 목적지로 쉽게 송신될 수 있지만, 특정 정보 및/또는 문서는 정렬을 위한 무수히 많은 다른 전자 기록물이 존재할 때 위치확인 및 격리가 어려울 수도 있다.
전자 기록물 관리 시스템 또는 다르게는 전자 문서 관리 시스템에서 분류 및 태깅을 용이하게 하기 위한 시스템 및 방법이 제공된다. 본 명세서에 설명된 시스템 및 방법은 물리적 파일로부터 변환되어 있는(예를 들어, 디지털 스캐닝되거나 또는 다른 방식으로 이미징된) 전자 기록물 및 전자 파일로서 생성 및 저장되어 있는 전자 기록물의 모두에 적용될 수 있다. 본 명세서에 설명된 시스템 및 방법은 임의의 전자 기록물 또는 전자 문서에 적용될 수 있다. 전자 기록물의 특정 영역 또는 구역으로부터 추출되고 분석된 정보를 사용하여 기록물 관리 시스템에서 기록물을 분류하고 태깅하기 위한 시스템 및 방법이 제공된다. 몇몇 경우에, 전자 기록물은 분류되고 태깅될 수 있다. 몇몇 경우에, 전자 기록물 내의 특정 영역 또는 구역은 분류되고 태깅될 수 있다. 기록물 및/또는 영역 또는 구역은 기록물 택소노미의 하나 이상의 요소로 분류되고 태깅될 수도 있다. 이러한 분류 및 태깅은 적어도 부분적으로 자연어에 기초할 수도 있고 호환될 수도 있다. 이러한 분류 및 태깅은 적어도 부분적으로 사용자 액티비티 및/또는 기록물 액티비티에 기초할 수도 있고 호환될 수도 있다. 유리하게는, 본 명세서에 제공된 시스템 및 방법을 사용하여 분류되고 태깅된 기록물은 그 후에 예를 들어 검색 키워드보다 문맥 관련성이 더 높을 수도 있는 사용자 액티비티 및/또는 기록물 액티비티에 기초하여 리트리빙될 수도 있다. 본 명세서의 시스템 및 방법은 감독되지 않고 자동화된 태깅을 위한 기록물 관리 시스템의 트레이닝을 허용할 수도 있다.
도 1은 기록물 관리 시스템에서 기록물을 분류하고 태깅하기 위한 방법의 단순화된 흐름도를 도시하고 있다.
기록물 관리 시스템에서 전자 기록물을 분류하고 태깅하기 위한 방법은 일반적으로 분류 템플릿을 정의하는 동작(110), 정의된 분류 템플릿에 대해 전자 기록물을 매칭하는 동작(120), 및 매칭에 기초하여 전자 기록물을 태깅하는 동작(130)을 포함할 수 있다. 이들 동작은 이하에서 상세히 설명될 것이다.
기록물 관리 시스템은 복수의 전자 기록물을 포함할 수 있다. 본 명세서에 설명된 기록물 관리 시스템은 임의의 수의 전자 기록물을 포함할 수 있다. 예를 들어, 기록물 관리는 적어도 1개, 10개, 100개, 103개, 104개, 105개, 106개, 107개, 108개, 109개, 1012개, 1015개, 또는 이보다 많은 전자 기록물을 포함할 수 있다. 전자 기록물은 예를 들어, 텍스트 및/또는 이미지와 같은 정보를 포함하는 임의의 디지털 기록물일 수 있다. 전자 기록물은 전자 문서 또는 발췌록(예를 들어, 단어, 구, 문장, 단락, 섹션, 챕터, 페이지, 다른 세그먼트 등)일 수 있다. 전자 기록물은 물리적 문서 또는 물리적 문서로부터의 발췌록의 디지털 이미지일 수 있다. 전자 기록물은 오프라인 및/또는 온라인(예를 들어, 인터넷 등)에서 입수 가능한 포스트, 리스트, 코멘트, 주석, 팜플렛, 가이드, 설명서, 사진, 그림, 이미지, 그래픽, 그래프, 표, 차트, 블로그, 웹사이트, 기사, 임의의 텍스트 및/또는 이미지, 임의의 다른 정보, 및/또는 이들의 조합일 수 있다.
분류 템플릿은 사용자에 의해 생성 및/또는 정의될 수 있다. 사용자는 기록물 관리 시스템의 사용자일 수도 있고 또는 아닐 수도 있다. 예를 들어, 사용자는 기록물 관리 시스템의 운영자, 매니저 또는 관리자일 수 있다. 사용자는 기록물 관리 시스템의 고객일 수 있다. 사용자는 기록물 관리 시스템에 대한 문서 및/또는 기록물의 제공자일 수 있다. 사용자는 기록물 관리 시스템에 대한 문서 및/또는 기록물의 작성자일 수 있다. 사용자는 개인일 수 있다. 사용자는 단체일 수 있다. 사용자는 복수의 개인일 수 있다. 사용자는 복수의 단체일 수 있다. 몇몇 경우에, 기록물 관리 시스템은 고유 식별자(예를 들어, 사용자 이름, 사용자 계정, 사용자 ID 등)에 의해 사용자를 식별할 수도 있다.
몇몇 경우에, 분류 템플릿은 분류 템플릿 라이브러리에 저장될 수 있다. 분류 템플릿 라이브러리는 하나 이상의 데이터베이스와 같은 컴퓨터 시스템의 메모리(예를 들어, 서버)에 저장될 수도 있다. 분류 템플릿 라이브러리는 이하에 더 설명하는 바와 같이, 그래프 데이터베이스에 저장될 수도 있다. 예를 들어, 사용자에 의해 생성된 임의의 분류 템플릿은 세이브되어 시스템(예를 들어, 기록물 관리 시스템)에 의해 사용을 위해 분류 템플릿 라이브러리에 저장될 수도 있다. 분류 템플릿은 하나 이상의 태그(111)에 대응할 수 있고 하나 이상의 분류 유닛(112)에 의해 정의될 수 있다.
태그는 전자 기록물을 기술하는 데 사용되는 라벨일 수 있다. 태그는 공통 테마를 갖는 상이한 전자 기록물을 그룹화하는 데 사용되는 라벨일 수 있다. 태그는 텍스트 문자열일 수 있다. 태그는 수치값일 수 있다. 태그는 키워드 및/또는 구문일 수 있다. 태그는 이름일 수 있다. 태그는 등급일 수 있다. 태그는 카테고리, 그룹, 토픽 및/또는 유형일 수 있다. 태그는 주석일 수 있다. 태그는 구조화되지 않은 택소노미의 하나 이상의 구성요소일 수 있다. 태그는 표준화된 정보일 수 있다. 태그는 전자 기록물 또는 파일을 위한 임의의 메타데이터 필드일 수 있다. 태그는, 예로서 전자 기록물에 할당될 때, 전자 기록물을 위한 메타데이터 필드로서 저장될 수도 있다. 몇몇 경우에, 태그는 2진수(예를 들어, 예/아니요, o/x, 0/1 등)일 수 있다. 태그는 전자 기록물에 할당 가능하고 그리고/또는 전자 기록물로부터 제거 가능할 수도 있다. 태그는 전자 기록물을 색인하는 데 사용될 수도 있다. 태그는 기록물의 그룹을 식별하는 데 사용될 수도 있다. 태그는 전자 기록물을 분류하는 데 사용될 수도 있다. 태그는 전자 기록물을 검색하고 필터링하는 데 사용될 수도 있다. 태그는 변경되고, 수정되고 그리고/또는 다른 방식으로 업데이트될 수도 있다. 몇몇 경우에, 태그는 하나 이상의 전자 기록물에 할당된 동안에 변경되고, 수정되고 그리고/또는 다른 방식으로 업데이트될 수도 있다.
분류 템플릿은 하나 이상의 태그(111)에 대응할 수 있다. 몇몇 경우에, 분류 템플릿은 단지 하나의 태그에만 대응할 수 있다. 몇몇 경우에, 분류 템플릿은 적어도 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 15개, 20개, 25개, 30개, 35개, 40개, 45개, 50개, 100개, 또는 이보다 많은 태그에 대응할 수 있다. 몇몇 경우에, 분류 템플릿은 최대 100개, 50개, 45개, 40개, 35개, 30개, 25개, 20개, 15개, 10개, 9개, 8개, 7개, 6개, 5개, 4개, 3개, 2개 또는 1개의 태그(들)에 대응할 수 있다. 몇몇 경우에, 각각의 태그에 대응하는 적어도 하나의 분류 템플릿이 존재할 수도 있다. 복수의 분류 템플릿은 동일한 태그 및/또는 동일한 태그의 그룹에 대응할 수 있다. 예로서, 제1 분류 템플릿은 '스포츠', '건강한 라이프스타일' 및 '식품'의 태그에 대응할 수 있고, 제2 분류 템플릿은 '대나무'의 태그에 대응할 수 있고, 제3 분류 템플릿은 '나무', '대나무', '올리브', '식품'의 태그에 대응할 수 있다. 다른 예에서, 특정 공급자 또는 판매자에 대한 전자 기록물은 이하의 태그: 전자 기록물의 유형을 식별하는 태그(예를 들어, 인보이스), 고객을 식별하는 태그(예를 들어, 고객 이름), 콘텐츠를 식별하는 태그(예를 들어, 판매된 제품), 기록물 생성 시간을 식별하는 태그(예를 들어, 년, 월, 일, 시 등) 및 기타 태그가 할당되어 있을 수 있다.
분류 템플릿은 하나 이상의 분류 유닛(112)에 의해 정의될 수 있다. 분류 유닛은 전자 기록물(113), 페이지 인덱스(114), 치수(115) 및 분류 방법(116) 내의 영역 또는 구역에 의해 정의될 수 있다. 분류 유닛은 사용자에 의해 생성 및/또는 정의될 수 있다. 사용자는 기록물 관리 시스템의 사용자일 수도 있고 또는 아닐 수도 있다. 몇몇 경우에, 분류 유닛은 분류 유닛 라이브러리에 저장될 수 있다. 분류 유닛 라이브러리는 하나 이상의 데이터 베이스와 같은 컴퓨터 시스템의 메모리(예를 들어, 서버)에 저장될 수도 있다. 분류 유닛 라이브러리는 이하에 더 설명되는 바와 같이 그래프 데이터베이스에 저장될 수도 있다. 동일한 데이터베이스는 분류 유닛 라이브러리 및 분류 템플릿 라이브러리를 저장할 수도 있다. 예를 들어, 사용자에 의해 생성된 임의의 분류 유닛은 세이브되어 시스템(예를 들어, 기록물 관리 시스템)에 의해 사용을 위해 분류 유닛 라이브러리에 저장될 수도 있다. 동일한 분류 유닛은 상이한 분류 템플릿을 정의할 수도 있다.
몇몇 경우에, 분류 템플릿은 단지 하나의 분류 유닛에 의해 정의될 수 있다. 몇몇 경우에, 분류 템플릿은 적어도 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 15개, 20개, 25개, 30개, 35개, 40개, 45개, 50개, 100개, 또는 이보다 많은 분류 유닛에 의해 정의될 수 있다. 몇몇 경우에, 분류 템플릿은 최대 100개, 50개, 45개, 40개, 35개, 30개, 25개, 20개, 15개, 10개, 9개, 8개, 7개, 6개, 5개, 4개, 3개, 2개 또는 1개의 분류 유닛(들)에 의해 정의될 수 있다.
영역 또는 구역(113)은 전자 기록물의 임의의 페이지 또는 다른 하위-유닛(예를 들어, 챕터, 섹션, 단락, 문장 등) 상에 있을 수 있다. 전자 기록물의 영역 또는 구역은 임의의 형상을 가질 수도 있다. 예를 들어, 영역 또는 구역은 직사각형 또는 원형일 수 있다. 영역 또는 구역은 다각형일 수도 있고, 또는 임의의 다른 임의적 형상일 수도 있다. 몇몇 경우에, 사용자는 전자 기록물의 페이지 상에 영역 또는 구역을 정의하기 위해 사전 제공된 형상(예를 들어, 직사각형, 평행사변형, 원, 사다리꼴, 육각형 등)을 선택할 수도 있다. 몇몇 경우에, 사용자는 형상에 대한 좌표, 치수 및/또는 측정값을 제공할 수도 있다. 몇몇 경우에, 좌표, 치수 및/또는 측정값은 기준점 또는 치수(예를 들어, 모서리, 에지, 에지의 중점, 페이지 또는 하위-유닛의 중심, 폭, 길이, 빗변, 직경, 반경, 둘레, 대각선, 면적, 폭의 백분율, 길이의 백분율, 빗변의 백분율, 직경의 백분율, 반경의 백분율, 둘레의 백분율, 대각선의 백분율, 면적의 백분율 등)에 관련될 수 있다. 몇몇 경우에, 영역 또는 구역은 라인 번호(예를 들어, 라인 5~17) 또는 페이지의 다른 유닛(예를 들어, 칼럼 2~4, 로우 3~5 등)에 대해 정의될 수 있다. 몇몇 경우에, 영역 또는 구역은 전체 페이지일 수 있다. 몇몇 경우에, 영역 또는 구역은 하나보다 많은 페이지에 걸쳐있을 수 있다. 몇몇 경우에, 영역 또는 구역은 한 페이지 미만일 수 있다.
몇몇 경우에, 사용자는 맞춤형 형상을 드로잉할 수 있다. 몇몇 경우에, 사용자는, 예로서 페이지 또는 다른 하위 유닛의 영역 또는 구역의 형상의 윤곽을 프리뷰함으로써, 영역 또는 구역이 정의될 전자 기록물의 페이지 또는 다른 하위 유닛을 디스플레이하는 그래픽 사용자 인터페이스 상에 영역 또는 구역을 정의할 수도 있다. 그래픽 사용자 인터페이스는 사용자에게 전자 기록물의 페이지, 복수의 페이지, 또는 다른 서브유닛을 디스플레이할 수도 있다. 그래픽 사용자 인터페이스상에서, 사용자는, 예로서 사전정의된 형상을 드래그-앤-드롭하고, 형상을 드로잉하기 위해 클릭 앤 드래그하고, 그리고/또는 이용 가능한 다른 사용자 상호 작용의 방법(예를 들어, 클릭, 터치, 탭, 드래그, 홀드, 드롭, 스와이프, 더블 클릭, 트리플 클릭, 스크롤, 확장, 핀칭 등)에 의해, 영역 또는 구역을 선택하고 그리고/또는 핸드 드로잉할 수도 있다. 몇몇 경우에, 그래픽 사용자 인터페이스는 사용자에 이용 가능한 동작(예를 들어, 형상 템플릿을 선택하고, 형상을 드로잉하며, 편집을 시작하고, 편집을 마무리하는 등)의 툴박스, 툴바, 사이드바, 메뉴, 옵션 등을 디스플레이할 수도 있다.
몇몇 경우에, 사용자는 웹 기반 인터페이스 상에 분류 템플릿 및/또는 분류 유닛을 정의할 수도 있다. 사용자는 전자 파일(예를 들어, PDF 파일, doc 파일, jpeg 파일 등)을 시스템에 업로드할 수도 있다. 사용자는 영역 또는 구역을 정의하기 위해 인터페이스 상에 전술된 것들과 같은 툴을 사용하여 형상을 드로잉하고 그리고/또는 다른 정의들을 추가할 수도 있다. 일단 영역 또는 구역이 정의되면, 사용자는 예로서 분류 방법을 정의함으로써 분류 유닛을 계속 정의할 수도 있다. 또는 형상이 스크린에 드로잉되어 있으면, 사용자는 이하에 설명될 분류의 방법 또는 사전결정된 임계 스코어(threshold score)와 같은 분류 유닛의 다른 속성을 정의할 수 있다.
도 2는 전자 기록물 내의 영역 또는 구역의 예를 도시하고 있다. 전자 기록물의 페이지(202)는 2개의 분류 유닛, 즉 제1 직사각형 구역 또는 영역(204)을 갖는 제1 분류 유닛과, 제2 직사각형 구역 또는 영역(206)을 갖는 제2 분류 유닛을 가질 수도 있다.
페이지 인덱스(114)는 영역 또는 구역(113)을 포함하는 전자 기록물의 페이지의 인덱스일 수 있다. 몇몇 경우에, 페이지 인덱스는 영숫자일 수 있다. 몇몇 경우에, 페이지 인덱스는 전자 기록물의 페이지 번호일 수 있다. 몇몇 경우에, 페이지 인덱스는 페이지 순서일 수 있다(예를 들어, 전자 기록물의 제5 페이지는 5의 페이지 인덱스를 갖지만 페이지 번호는 11임). 분류 템플릿은 상이한 페이지 상에 영역 또는 구역을 정의하는 분류 유닛을 포함할 수 있다. 예를 들어, 3개의 분류 유닛을 포함하는 분류 템플릿은 전자 기록물의 제3 페이지(예를 들어, 3의 페이지 인덱스를 가짐) 상의 2개의 상이한 영역 또는 구역을 정의하는 제1 및 제2 분류 유닛 및 제17 페이지(예를 들어, 17의 페이지 인덱스를 가짐) 상에 상이한 영역 또는 구역을 정의하는 제3 분류를 가질 수 있다. 이하에 더 설명되는 바와 같이, 전자 기록물이 분류 템플릿에 대해 매칭될 때, 분류 템플릿 내의 분류 유닛에 의해 정의된 각각의 영역 또는 구역은 전자 기록물의 동일한 또는 상이한 페이지 상에 있건간에 분석될 수 있다.
전술된 바와 같이 치수(115)는 영역 또는 구역(113)에 대한 치수일 수 있다. 치수는 임의의 단위(예를 들어, 인치, 피트, 센티미터, 미터, 센티미터, 밀리미터, 쿼터 인치 등)일 수 있다.
분류 유닛은 분류 방법(116)에 의해 정의될 수 있다. 분류 방법은 정규 표현식의 패턴을 이용할 수 있다. 분류 방법은 품사 태깅된 텍스트의 패턴을 이용할 수 있다. 분류 방법은 하나 이상의 다른 분류 알고리즘(예를 들어, 라벨링 알고리즘, 정보 추출 알고리즘, 축소된 정규 표현식, Naive Bayes, Max Entropy, Boosted Trees, Random Forest 등)을 이용할 수 있다. 분류 방법은 상기의 조합을 이용할 수 있다. 분류 방법은 자연어 처리(natural language processing: NLP) 분류 방법 및/또는 알고리즘을 사용할 수 있다. 유리하게는, 복수의 분류 유닛을 갖는 분류 템플릿은 상이한 분류 방법을 사용하여 전자 기록물을 분류할 수도 있다.
분류 템플릿이 전자 기록물에 대해 매칭될 때(120), 이하에 더 설명되는 바와 같이, 분류 템플릿의 분류 유닛의 영역 또는 구역으로의 분류 방법의 적용은 분류 유닛에 대한 유닛 근접도 스코어를 결정할 수도 있다(121). 몇몇 경우에, 유닛 근접도 스코어는 유닛의 최소 임계 스코어에 적어도 부분적으로 기초할 수 있다. 최소 임계 스코어는 사용자 정의되고 그리고/또는 사전프로그래밍될 수 있다. 분류 템플릿에 대한 유닛 근접도 스코어는 조합되어 분류 템플릿에 대한 템플릿 근접도 스코어를 결정할 수도 있다(122). 전자 기록물에 대해 매칭된 분류 템플릿에 대해 결정된 템플릿 근접도 스코어는 그 분류 템플릿에 대응하는 하나 이상의 태그가 전자 기록물에 할당되는지의 여부를 결정할 수 있다.
분류 방법은 정규 표현식의 패턴을 이용할 수 있다. 정규 표현식(예를 들어, regex, regexp 등)의 패턴은 검색 패턴을 기술하는 특수 텍스트 문자열일 수 있다. 정규 표현식은 특정 양의 텍스트를 기술하는 패턴일 수 있다. 예로서, "\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,}\b"의 패턴은 이메일 주소를 기술할 수 있다. 이 패턴은 텍스트(예를 들어, 문자열, 문자열)를 검색하여 텍스트 내의 이메일 주소 또는 이메일 주소와 유사한 문자열을 발견하는 데 사용될 수 있다. 정규 표현식의 패턴을 이용하는 분류 방법이 분류 유닛에 적용될 때, 분류 유닛의 지정된 영역 또는 구역에 위치되거나 다른 방식으로 배치되는 텍스트는 정규 표현식의 패턴의 문자열에 대해 검색될 수 있다. 몇몇 경우에, 정규 표현식의 패턴을 이용하는 분류 방법에 기초하는 스코어링은 2진수(예를 들어, 0 또는 1)일 수 있어, 적어도 하나의 매칭이 존재할 때(예를 들어, 하나 이상의 이메일 주소가 발견됨) 1의 스코어가 결정되고, 매칭이 존재하지 않을 때(예를 들어, 이메일 주소가 발견되지 않음) 0의 스코어가 결정된다. 대안적으로 또는 추가적으로, 정규 표현식의 패턴을 이용하는 분류 방법에 기초하는 스코어링은 매칭의 빈도, 최대 숫자 중(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 1000 등 중)의 스코어, 백분율 또는 분수, 또는 임의의 다른 스코어링 시스템과 같은 비 2진수 스케일에 기초할 수 있다. 예를 들어, 유닛 근접도 스코어는 적은 빈도를 갖는(예를 들어, 2개의 이메일 주소) 정규 표현식의 패턴을 갖는 문자열을 포함하는 분류 유닛에 대해서보다 더 많은 빈도(예를 들어, 7개의 이메일 주소)를 갖는 정규 표현식의 패턴을 갖는 문자열을 포함하는 분류 유닛에 대해서 더 높을 수 있다.
분류 방법은 품사의 패턴을 이용할 수 있다. 품사의 패턴은 품사(예를 들어, 보통 명사, 복수 보통 명사, 고유 명사, 법조동사, 기본 동사, 형용사, 비교 형용사 등) 및 고정된 키워드로 태깅된 텍스트를 포함할 수 있다. 예로서, "looking/VBG, for/IN, [NN], ..., in/IN, [NN], ..."의 패턴은 태그 VBG(동사적 동명사), IN(전치사 또는 종속 접속사), NN(보통 명사)을 가질 수 있다. 다른 품사 태그의 예가 도 3에 도시되어 있다. 품사 태그는 도 3에 도시된 것들에 한정되지 않는다. 품사의 패턴을 이용하는 분류 방법이 분류 유닛에 적용될 때, 분류 유닛의 지정된 영역 또는 구역에 위치되거나 또는 다른 방식으로 배치된 텍스트는 고정된 키워드에 대해 검색될 수 있고, 매칭된 텍스트는 품사 태그를 갖고 태깅될 수 있다.
예로서, 품사 태깅된 패턴은 "form/NN [CD]"일 수 있다. 본 예에서, 한정 명사: "form"이 존재하고 이어서 임의의 수 "[CD]"가 이어진다. 품사 태깅된 패턴의 다른 더 복잡한 예는 다음과 같을 수 있다: "[NN] [VBG] tax/NN records/NNS". 이 경우에, 제1 토큰은 비한정 명사 "[NN]"에 이어서 비한정 동사 "[VBG]"와 2개의 한정 명사 "tax/NN" 및 "records/NNS"가 이어진다. 사용자는 패턴의 총 가중치가 1이 되도록 패턴의 각각의 토큰에 대한 가중치를 정의할 수도 있다. 토큰 가중치는 패턴 근접도 스코어를 결정하기 위해 어떻게 특정 패턴을 스코어링하는지를 결정할 수 있으며, 이 패턴 근접도 스코어는 분류 유닛의 최소 임계 스코어에 비교될 수 있다. 유닛 근접도 스코어는 패턴 근접도 스코어에 적어도 부분적으로 기초할 수 있다. 이전의 예를 확장하면, 가중치 정의를 갖는 동일한 패턴은: "[NN-0.2] [VBG-0.1] tax/NN-0.4 records/NNS-0.3"일 수 있고, 여기서 [NN]의 비한정 명사는 0.2의 가중치를 갖고, [VBG]의 비한정 동사는 0.1의 가중치를 갖고, "tax/NN"의 한정 명사는 0.4의 가중치를 가지며, "records/NNS"의 한정 명사는 0.3의 가중치를 갖는다. 사용자는 0.8과 같은, 패턴에 합치하는 것으로서 텍스트의 수용을 위한 최소 임계치를 또한 정의할 수도 있다. 1의 더 엄격한 최소 임계치는 텍스트가 품사의 패턴과 정확하게 합치해야 하는 것을 요구할 수도 있다. 몇몇 경우에, 0의 최소 임계치는 분류 방법이 품사 태깅된 패턴에 대한 합치성에 무관하게 임의의 패턴의 텍스트를 수용하게 할 수도 있다. 사용자는 임의의 최소 임계값을 정의할 수도 있다.
품사의 패턴을 이용하는 분류는 시스템이 품사 태그로 추출된 텍스트를 자동으로 태깅하는 것(예를 들어, 분류 유닛의 지정된 영역 또는 구역에 위치되거나 또는 다른 방식으로 배치된 텍스트로부터)으로 시작할 수 있다. 태깅 후에, 텍스트는 키워드 및 품사 태그를 포함하는 토큰으로 토큰화될 수 있다. 예를 들어, 이하의 텍스트 "세금 기록물을 포함하는 정보"는 "information/NN, containing/VBG, tax/NN, records/NNS."로 태깅되어 토큰화될 수 있다. 일단, 텍스트가 태깅되어 토큰화되어 있으면, 시스템은 분류 유닛 내에 정의된 패턴이 텍스트 내에 존재하는지를 먼저 결정함으로써 텍스트를 스코어링할 수 있다. 텍스트는 개별 토큰에 비교될 수 있다. 하나 이상의 개별 토큰이 매칭되면, 패턴 내의 개별 토큰과 연관된 가중치가 집계되어 패턴 근접도 스코어를 결정할 수 있다. 일단 모든 토큰이 처리되어 있으면, 패턴 근접도 스코어는 최소 임계값과 비교될 수 있다. 몇몇 경우에, 패턴 근접도 스코어가 최소 임계값 이상이면, 분류 유닛은 1의 유닛 근접도 스코어를 수신할 수 있고, 그렇지 않으면 0을 수신할 수 있다. 몇몇 경우에, 유닛 근접도 스코어는 비-2진수일 수 있다. 예를 들어, 유닛 근접도 스코어는 패턴 근접도 스코어에 적어도 부분적으로 기초할 수 있다.
분류 방법은 Naive Bayes, Maximum Entropy, Boosted Trees, Random Forest 분류자와 같은 다른 분류 알고리즘을 이용할 수 있다. 분류 알고리즘은 라벨링 알고리즘, 정보 추출 알고리즘, 다른 패턴(예를 들어, 축소된 정규 표현식 등), NLP 알고리즘 및/또는 다른 알고리즘일 수 있다. 하나 이상의 분류 알고리즘을 이용하는 분류 방법이 적용될 때, 분류 유닛의 지정된 영역 또는 구역에 위치되거나 또는 다른 방식으로 배치된 텍스트는 알고리즘에 따라 분류되고 스코어링될 수 있다. 몇몇 경우에, 스코어링은 2진수(예를 들어, 0 또는 1)일 수 있다. 대안적으로 또는 추가적으로, 스코어링은 매칭의 빈도, 최대 숫자 중(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 1000 등 중)의 스코어, 백분율 또는 분수 또는 임의의 다른 스코어링 시스템과 같은, 비-2진수 스케일에 기초할 수 있다. 몇몇 경우에, 사용자는 템플릿 근접도 스코어를 결정하는 데 사용될 수 있는 유닛 근접도 스코어에 대한 사전결정된 임계치를 정의할 수도 있다. 사전결정된 임계치는 최소 및/또는 최대 스코어일 수 있다.
도 1을 재차 참조하면, 일단 유닛 근접도 스코어가 전자 기록물에 대한 분류 템플릿 내의 각각의 분류 유닛에 대해 결정되면(121), 분류 템플릿에 대한 템플릿 근접도 스코어는 개별 유닛 근접도 스코어로부터 결정될 수 있다. 템플릿 근접도 스코어는 개별 유닛 근접도 스코어의 집계 스코어일 수 있다. 이하의 집계 스코어 방법론이 템플릿 근접도 스코어를 결정하는 데 사용될 수 있다. 시스템은, 예를 들어, 고전적인 벡터 코사인 유사도 알고리즘을 이용할 수도 있다:
Figure pct00001
유닛 근접도 스코어가 2진수인 경우, 템플릿 처리 중에, 최소 임계 스코어에 부합한 각각의 분류 유닛의 스코어는 1을 갖는 분류 벡터로서 추가될 수 있고 최소 임계 스코어에 부합하지 않은 각각의 분류 유닛의 스코어는 0을 가질 수 있다. 분류 벡터는 각각의 분류 유닛에 대해 1을 갖는 제어 벡터에 대해 비교될 수 있다. 상기 벡터 코사인 알고리즘은 2개의 벡터 사이의 유사도를 계산하여 템플릿 근접도 스코어를 결정할 수 있다. 대안적으로 또는 추가적으로, 다른 방법론이 템플릿 근접도 스코어를 결정하는 데 사용될 수 있다.
분류 유닛과 분류 템플릿 사이의 관계는 이하에 더 설명되는 바와 같이, 근접도 관계를 거쳐 서로 연결된 노드로서 분류 템플릿 및 분류 유닛을 갖는 그래프 기반 데이터 구조에 저장될 수 있다. 몇몇 경우에, 분류 유닛과 분류 템플릿 사이의 근접도 관계를 조정하는 피드백 프로세스(예를 들어, 피드백 루프)에 기인하여, 분류 템플릿 내의 낮은 근접도 스코어를 갖는 외인성 분류 유닛이 템플릿 근접도 스코어를 결정하는 집계 스코어 식으로부터 제외될 수도 있다.
템플릿 근접도 스코어는 전자 기록물과 분류 템플릿에 대응하는 하나 이상의 태그 사이의 근접도를 지시할 수 있다. 전자 기록물은 적어도 부분적으로 템플릿 근접도 스코어에 기초하여 분류 템플릿에 대응하는 하나 이상의 태그에 의해 태깅될 수 있다(130). 예를 들어, 분류 템플릿에 대한 템플릿 근접도 스코어는 사전결정된 임계 스코어와 비교될 수도 있고, 여기서 전자 기록물은 단지 템플릿 근접도 스코어가 사전결정된 임계 스코어(예를 들어, 0.95 등) 이상인 경우에만 분류 템플릿에 대응하는 하나 이상의 태그로 태깅되고, 그렇지 않으면 태깅되지 않는다. 몇몇 경우에, 사용자는 기록물 관리 시스템에 대한 사전결정된 임계 스코어를 정의할 수도 있다. 몇몇 경우에, 디폴트 임계 스코어(예를 들어, 0.8, 50, 70, 85, 50%, 70%, 85% 등)가 시스템을 위한 사전결정된 임계 스코어일 수 있다. 몇몇 경우에, 사용자 정의된 사전결정된 임계 스코어가 디폴트 임계 스코어에 우선할 수 있다.
분류의 프로세스 중에, 전자 기록물은 복수의 분류 템플릿에 대해 매칭될 수 있다. 몇몇 경우에, 전자 기록물은 기록물 관리 시스템의 분류 템플릿 라이브러리 내의 모든 분류 템플릿에 대해 매칭될 수 있다. 유리하게는, 전자 기록물은 이것이 분류되고 태깅되기 전에 시스템 내의 모든 태그에 대한 근접도에 대해 평가될 수도 있다. 몇몇 경우에, 기록물 관리 시스템 내의 모든 전자 기록물은 분류 템플릿 라이브러리 내의 각각의 분류 템플릿에 대해 매칭될 수 있다. 몇몇 경우에, 전자 기록물이 복수의 분류 템플릿에 대응하는 태그가 할당되면, 시스템은 그 후에 동일한 태그에 대응하는 분류 템플릿으로 전자 기록물을 스킵하거나 또는 다른 방식으로 매칭을 앞서간다. 유리하게는, 이는 시스템의 처리 용량을 절약하고 분류 시간을 단축할 수도 있다.
몇몇 경우에, 분류 유닛은 하나보다 많은 영역 또는 구역에 의해 정의될 수도 있다. 예를 들어, 분류 유닛을 위한 분류 방법은 분류 유닛의 모든 영역 또는 구역에 적용될 수도 있다.
전술된 바와 같이, 분류 템플릿은 분류 템플릿 라이브러리에 저장될 수도 있다. 예를 들어, 사용자에 의해 생성된 임의의 분류 템플릿은 세이브되어 시스템(예를 들어, 기록물 관리 시스템)에 의해 사용을 위해 분류 템플릿 라이브러리에 저장될 수도 있다. 몇몇 경우에, 분류 템플릿 라이브러리는 사용자(예를 들어, 기록물 관리 시스템의 고객)에게 특정될 수 있다. 이러한 경우에, 사용자에 의해 생성된 분류 템플릿은 세이브되어 단지 사용자 및/또는 사용자의 전자 기록물에만 이용 가능하게 될 수도 있다. 대안적으로 또는 추가적으로, 모든 분류 템플릿은 기록물 관리 시스템의 모든 사용자에 이용 가능할 수도 있다. 유리하게는, 이는 동일한 태그에 대해 상이한 전자 기록물을 분류할 때 시스템이 각각의 전자 기록물에 동일한 표준(예를 들어, 분류 템플릿에 정의됨)을 적용하는 것을 허용한다. 더욱이, 사용자는 각각의 태그에 대한 분류 방법의 적용에 대한 분류 방법 및/또는 상세를 중복하여 재정의할 필요가 없다.
전술된 바와 같이, 분류 유닛은 분류 유닛 라이브러리에 저장될 수도 있다. 예를 들어, 사용자에 의해 생성된 임의의 분류 유닛은 세이브되어 시스템(예를 들어, 기록물 관리 시스템)에 의해 사용을 위해 분류 유닛 라이브러리에 저장될 수도 있다. 동일한 분류 유닛은 상이한 분류 템플릿을 정의할 수도 있다. 몇몇 경우에, 분류 유닛 라이브러리는 사용자(예를 들어, 기록물 관리 시스템의 고객)에 특정될 수 있다. 이러한 경우에, 사용자에 의해 생성된 분류 유닛은 세이브되어 단지 사용자, 사용자의 분류 템플릿 및/또는 사용자의 전자 기록물에만 이용 가능하게 될 수도 있다. 대안적으로 또는 추가적으로, 모든 분류 유닛은 기록물 관리 시스템의 모든 사용자에 이용 가능할 수도 있다. 유리하게는, 사용자는 각각의 분류 템플릿에 대한 분류 방법의 적용에 대한 분류 방법 및/또는 상세를 중복하여 재정의할 필요가 없다.
몇몇 경우에, 분류 유닛 라이브러리 및/또는 분류 템플릿 라이브러리는 그래프 데이터베이스에 저장될 수 있다. 도 4는 분류 템플릿 라이브러리 및 분류 유닛 라이브러리의 그래프 데이터베이스의 예를 도시하고 있다. 그래프 데이터 베이스(400)는 분류 템플릿[예를 들어, 제1 태그에 대한 제1 템플릿(402), 제2 태그에 대한 제2 템플릿(404) 등], 분류 유닛[예를 들어, 제1 유닛(406), 제2 유닛(408), 제3 유닛(410), 제4 유닛(412) 등], 및 분류 템플릿과 분류 유닛[예를 들어, 근접도 관계(414, 416, 418, 420, 422 등)] 사이의 근접도 관계를 저장할 수도 있다. 본 명세서에 설명된 근접도 관계와 상기에서 설명된 근접도 스코어 사이의 구별이 이루어진다(예를 들어, 유닛 근접도 스코어는 분류 유닛과 전자 기록물 사이의 근접도를 지시하고, 템플릿 근접도 스코어는 분류 템플릿과 전자 기록물 사이의 근접도를 지시함).
도 4에서, 제1 템플릿(402)은 제1 유닛(406)과의 제1 근접도 관계(414), 제2 유닛(408)과의 제3 근접도 관계(418), 및 제3 유닛(410)과의 제4 근접도 관계(420)를 갖는다. 제2 템플릿(404)은 제1 유닛(406)과의 제2 근접도 관계(416) 및 제4 유닛(412)과의 제5 근접도 관계(422)를 갖는다. 본 예에서, 제1 분류 유닛(406)은 제1 분류 템플릿(402) 및 제2 분류 템플릿(404)의 모두에 포함된다.
몇몇 경우에, 그래프 데이터베이스(400)는 기록물 관리 시스템의 사용자에게 특정할 수도 있다. 대안적으로, 그래프 데이터베이스(400)는 기록물 관리 시스템의 모든 사용자에게 적용 가능할 수 있다.
분류 템플릿과 분류 유닛 사이의 근접도 관계[예를 들어, 근접도 관계(414, 416, 418, 420, 422 등)]는 적어도 2개의 목적을 담당할 수 있다. 분류 템플릿과 분류 유닛 사이의 근접도 관계는 분류 유닛과 분류 템플릿 사이의 관련성 레벨을 정의할 수 있다. 몇몇 경우에, 분류 템플릿과 분류 유닛 사이의 근접도 관계는 근접도 관계 스코어와 같이 정량화될 수 있고, 유닛에 의해 분류된 바와 같이 수용될 전자 기록물을 위해 요구된 임계 스코어에 대해 비교될 수 있다. 몇몇 경우에, 분류 템플릿과 분류 유닛 사이의 근접도 관계는 개별 유닛 근접도 스코어를 집계하는 템플릿 근접도 스코어 식에 팩토링될(factored) 수 있다. 예를 들어, 유닛 근접도 스코어는 유닛 근접도 스코어의 분류 유닛과 분류 템플릿 사이의 상대 근접도 관계에 의해 가중될 수 있다.
몇몇 경우에, 그래프 데이터베이스(400)는 태그(도 4에 도시되어 있지 않음), 태그와 분류 템플릿 사이의 근접도 관계(도 4에 도시되어 있지 않음), 및/또는 태그와 분류 유닛 사이의 근접도 관계(도 4에 도시되어 있지 않음)를 또한 저장할 수도 있다.
분류 템플릿과 태그 사이의 근접도 관계는 적어도 2개의 목적을 담당할 수 있다. 분류 템플릿과 태그 사이의 근접도 관계는 태그와 분류 템플릿 사이의 관련성 레벨을 정의할 수 있다. 분류 템플릿과 태그 사이의 근접도 관계는 분류 템플릿이 정확한 태그(들)에 대응하는지 여부를 결정할 수 있다. 몇몇 경우에, 태그와 분류 템플릿 사이의 근접도 관계는 분류 템플릿에 대한 템플릿 근접도 스코어에 기초하여 태그로 태깅하기 위해 사전결정된 임계 스코어로 팩토링될 수 있다. 예를 들어, 제1 분류 템플릿이 2개의 대응하는 태그를 갖고, 제1 분류 템플릿이 제2 태그보다 제1 태그에 더 근접한 경우, 제1 분류 템플릿에 대한 템플릿 근접도 스코어에 기초하여 제1 태그로 태깅하기 위한 사전결정된 임계 스코어는 제1 분류 템플릿에 대한 템플릿 근접도 스코어에 기초하여 제2 태그로 태깅하기 위한 사전결정된 임계 스코어보다 더 낮을 수 있다.
분류 유닛과 태그 사이의 근접도 관계는 적어도 2개의 목적을 담당할 수 있다. 분류 유닛과 태그 사이의 근접도 관계는 태그와 분류 유닛 사이의 관련성 레벨을 정의할 수 있다. 분류 유닛과 태그 사이의 근접도 관계는 분류 유닛이 정확한 태그(들)에 대응하는지 여부를 결정할 수 있다. 몇몇 경우에, 태그와 분류 유닛 사이의 근접도 관계는 분류 유닛을 갖는 분류 템플릿에 대한 템플릿 근접도 스코어에 기초하여 태그로 태깅하기 위해 유닛 근접도 스코어에 팩토링될 수 있다. 예를 들어, 제1 분류 템플릿이 2개의 분류 유닛을 갖고, 제1 분류 유닛이 제2 분류 유닛보다 제1 분류 템플릿의 제1 태그에 더 근접한 경우, 제1 분류 유닛에 대한 유닛 근접도 스코어는 제1 태그에 대한 템플릿 근접도 스코어를 결정하는 데 있어서 제2 분류 유닛보다 더 많이 가중될 수 있다.
유리하게는, 그래프 데이터베이스는 각각의 분류 템플릿, 분류 유닛 및 태그 사이의 근접도 관계를 맵핑할 수도 있고, 이러한 근접도 관계를 사용하여, 예로서 전술된 방법을 거쳐(예를 들어, 근접도 스코어 식을 조정함) 각각의 분류 사이클에 의한 태깅의 정확도를 유동적으로 향상시킨다.
분류 템플릿은 반복된 사용 및/또는 분류와 같이 시간 경과에 따라 전개될 수도 있다. 예를 들어, 분류 템플릿의 템플릿 근접도 스코어는, 전자 기록물이 분류 템플릿의 하나 이상의 태그에 의해 분류됨에 따라 시간 경과에 따라 자동으로 미세 조절될 수 있다. 도 5는 분류 유닛 최소 임계 스코어를 미세 조절하기 위한 피드백 루프를 도시하고 있다.
피드백 루프(500)는 분류 알고리즘을 이용하는 분류 유닛에 적용 가능할 수 있다. 피드백 루프는 분류 유닛에 대한 최소 임계 스코어를 미세 조절할 수도 있다. 몇몇 경우에, 사용자가 스코어를 "조정 가능"하도록 정의한 경우에만 분류 유닛의 최소 임계 스코어가 조정될 수도 있다. 사용자는 허용된 조정의 경계를 또한 정의할 수도 있다. 예를 들어 사용자는 0.90 내지 0.95의 스코어에 대한 최소 임계 스코어의 자동 조정을 허용할 수도 있다. 분류 유닛에 대한 피드백 루프는 분류 유닛에 대한 과거 스코어의 시계열에 기초할 수도 있다. 사용자는 시계열의 기간을 정의할 수도 있다. 기간은 엔트리(예를 들어, 1000 엔트리) 또는 시간(예를 들어, 2개월)의 단위일 수 있다. 사용자는 조정의 빈도를 정의할 수도 있다. 예를 들어, 매달마다, 허용되는 최대 조정값은 0.001 상향 또는 하향일 수 있다. 임의의 자동 조정은 시계열 데이터에서 실행되는 선형 회귀에 의존할 수 있다. 예를 들어, 스코어가 이전 실행과 비교되고 값이 더 높으면, 최소 임계 스코어는 상향 조정될 수 있다. 유사하게, 스코어가 이전 실행보다 낮으면, 최소 임계 스코어는 더 낮게 조정될 수 있다.
도 5에서, 분류가 시작된 후(502), 분류 유닛은 스코어링될 수 있다(예를 들어, 유닛 근접도 스코어, 패턴 근접도 스코어 등)(504). 스코어는 최소 임계 스코어와 비교될 수 있다(508). 스코어가 최소 임계 스코어 미만이면, 피드백 루프는 임의의 조정 없이 종료될 수도 있다(510). 스코어가 최소 임계 스코어를 초과하는 경우, 시스템은 분류 유닛이 스코어 조정을 위해 구성되어 있는지, 예를 들어, 이것이 사용자에 의해 허용되는지를 확인할 수 있다(512). 분류 유닛이 스코어 조정을 위해 구성되지 않으면, 피드백 루프는 어떠한 조정도 없이 종료될 수도 있다(514). 분류 유닛이 스코어 조정을 위해 구성되면, 시스템은 스코어가 정의된(예를 들어, 사용자에 의해, 미리 프로그래밍됨) 최소 및 최대 조정 경계 내에 있는지를 확인할 수도 있다(516). 스코어가 최소 및 최대 조정 경계 밖에 있으면, 피드백 루프는 어떠한 조정도 없이 종료될 수도 있다(518). 스코어가 정의된 최소 및 최대 조정 경계 내에 있으면, 스코어는 사전정의된 기간에 걸쳐 스코어를 포함하는 시계열 데이터와 비교될 수 있다(522). 스코어가 이전 실행보다 높으면, 최소 임계 스코어는, 예로서 조정 모듈(520)에 의해 시계열 데이터의 선형 회귀에 의해 결정되는 양만큼 상향 조정될 수 있다. 스코어가 이전 실행보다 작으면, 최소 임계 스코어는 하향 조정될 수 있다. 분류 유닛에 대한 최소 임계 스코어는 이에 의해 재정의될 수 있다(506).
피드백 루프 조정에 의해, 시스템은 이것이 분류하는 콘텐츠에 자신을 적용할 수 있다. 예를 들어, 제1 분류 템플릿 내의 제1 분류 유닛이 제1 분류 템플릿 내의 다른 분류 유닛보다 낮고 그리고/또는 제1 분류 템플릿과 동일한 태그에 대응하는 다른 분류 템플릿 내의 다른 분류 유닛보다 낮은 스코어를 갖는 경우, 분류 유닛의 가중치는 템플릿 근접도 스코어를 결정할 때 하향 조정될 수 있다. 도 4의 그래프 데이터베이스를 재차 참조하면, 이러한 통상적인 더 낮은 스코어는 제1 분류 유닛과 제1 분류 템플릿 사이의 근접도 관계가 다른 분류 유닛과 제1 분류 템플릿 사이의 근접도 관계에 비해 더 먼 것을 지시할 수 있다. 이러한 통상적인 더 낮은 스코어는 제1 분류 유닛과 제1 분류 템플릿의 제1 태그 사이의 근접도 관계가 다른 분류 유닛과 제1 태그 사이의 근접도 관계에 비해 더 먼 것을 지시할 수 있다.
사용자는, 예로서 전자 기록물에 분류 템플릿을 적용하지 않고, 기록물 관리 시스템 내에 전자 기록물을 수동으로 태깅할 수도 있다. 시스템은 시스템의 사용자가 전자 기록물을 수동으로 태깅할 때를 모니터링할 수 있다. 이러한 수동 태깅 데이터는 시스템을 트레이닝시키는 데 사용될 수 있다. 유리하게는, 수동 태깅 중에 사용자 분류 의도가 직접 제공되기 때문에, 태그의 수동 태깅의 각각의 인스턴스는 시스템이 태그에 대해 분류된 콘텐츠를 식별할 수 있는 학습 기회로서 간주될 수 있다. 수동 태깅의 인스턴스는 트레이닝 데이터로서 저장될 수 있다. 본 명세서에 설명된 트레이닝 데이터 및 분류 모델은 반복적인 분류 반복을 통해 시간 경과에 따라 진화하고 정확도가 증가될 수 있다.
예로서, 시스템은 이하의 메타데이터로 전자 기록물을 태깅할 수도 있다:
(1) {태그: "LEGAL FILES", 스코어: "0.9", 방법: "A"}
(2) {태그: "LEGAL FILES", 스코어: "1", 방법: "M"}
예 (1)에서, 전자 기록물은 자동("A") 방법에 의해, 즉 0.9보다 낮은 사전결정된 임계 스코어를 통과한 "0.9"의 템플릿 근접도 스코어를 갖는 "LEGAL FILES"의 태그에 대응하는 분류 템플릿을 적용함으로써, "LEGAL FILES"의 태그로 태깅된다. 예(2)에서, 전자 기록물은 수동( "M") 방법에 의해, 즉 분류 템플릿을 적용하지 않고 "1"의 근접도 스코어로 수동으로 태깅하여, "LEGAL FILES"의 태그로 태깅된다. 몇몇 경우에, 모든 수동으로 태깅된 기록물은 "1"의 근접도 스코어를 수신할 수 있다. 대안적으로, 스코어 체계가 1이 아닌 최대값을 갖는 경우, 수동으로 태깅된 기록물은 최대값의 근접도를 수신할 수 있다. 유리하게는, 이는 또한 수동 태깅 방법에 대해 자동 태깅 방법을 정규화할 수 있다.
몇몇 경우에, 임의의 수동으로 태깅된 전자 기록물의 콘텐츠는 트레이닝 자료로서 저장될 수 있다. 몇몇 경우에, "0.95" 이상의 템플릿 근접도 스코어를 갖는 임의의 자동으로 태깅된 전자 기록물의 콘텐츠가 트레이닝 자료로서 저장될 수 있다. 대안적으로, 약 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, 0.96, 0.97, 0.98, 0.99 이상의 템플릿 근접도 스코어를 갖는 임의의 자동으로 태깅된 전자 기록물의 콘텐츠가 트레이닝 자료로서 저장될 수 있다. 대안적으로, 약 0.5 미만의 템플릿 근접도 스코어를 갖는 임의의 자동으로 태깅된 전자 기록물의 콘텐츠가 트레이닝 자료로서 저장될 수 있다. 인식할 수 있는 바와 같이, 트레이닝 자료로서 저장을 위한 임계 스코어는 이에 따라 상이한 최대 스코어 값들(예를 들어, 1 이외)을 갖고 스케일링될 수 있다.
몇몇 경우에, 정규 표현식을 이용하는 그리고/또는 품사 태그를 이용하는 분류 방법이 분류를 위해 사용되는 경우, 시스템은 정의된 패턴 주위의 영역의 패턴과 함께 빈번하게 존재하는 용어 및 용어들의 조합을 분석하고 결정할 수 있다. 이 데이터는 트레이닝 자료로서 저장될 수 있다.
몇몇 경우에, 트레이닝 재료는 만료될 수 있다. 예를 들어, 트레이닝 자료는 시스템에 의한 초기 획득 후에, 약 1시간, 2시간, 3시간, 4시간, 5시간, 6시간, 12시간, 24시간, 1일, 2일, 3일, 4일, 5일, 6일, 7일, 1주, 2주, 3주, 4주, 1개월, 2개월, 3개월, 4개월, 5개월, 6개월, 1년, 2년, 3년, 4년, 5년, 6년, 7년, 8년, 9년, 10년, 10년, 20년, 30년, 40년, 50년 이상 후에 만료될 수 있다. 유리하게는, 기록물 관리 시스템은 특정 분류 체계 및/또는 표준이 시간 경과에 따라 진화하거나 변할 수도 있다는 점을 감안할 때 더 정확할 가능성이 있는 현재의 정보에 의해서만 트레이닝될 수 있다(예를 들어, 토마토는 제1 시점에 과일로서 분류될 수 있고 제2 시점에 채소로서 분류될 수 있고, 정치인은 제1 시점에 환경 문제의 대변자로서 분류될 수 있고 제2 시점에 교육 문제의 대변자로서 분류될 수 있고, 사업은 제1 시점에 비영리 공익 사업으로서 분류될 수 있고 제2 시점에서는 영리 사업으로서 분류될 수 있다.
컴퓨터 제어 시스템
본 개시내용은 본 개시내용의 방법을 구현하도록 프로그램된 컴퓨터 제어 시스템을 제공한다. 도 6은 다른 동작들 중에서도, 전자 태그를 분류 및 태깅하고, 분류 템플릿에 대한 정의를 정의 및/또는 수신하고, 분류 유닛에 대한 정의를 정의 및/또는 수신하고, 분류 공식을 계산하고, 유닛 근접도 스코어를 결정하고, 템플릿 근접도 스코어를 결정하고, 사전결정된 임계 스코어를 비교하고, 그래프 데이터 베이스를 생성, 탐색 및/또는 확장하고, 태그, 분류 템플릿 및 분류 유닛 사이의 근접도 관계를 결정하고, 트레이닝 자료를 결정하고, 분류 및 태깅의 기계 학습을 수행하고, 기록물 관리 시스템을 동작하도록 프로그램되거나 다른 방식으로 구성된 컴퓨터 시스템(601)을 도시하고 있다. 컴퓨터 시스템(601)은 전자 디바이스에 대해 원격으로 위치된 사용자 또는 컴퓨터 시스템의 전자 디바이스일 수 있다. 전자 디바이스는 모바일 전자 디바이스일 수 있다.
컴퓨터 시스템(601)은 단일 코어 또는 멀티 코어 프로세서 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 유닛(CPU, 본 명세서에서 또한 "프로세서" 및 "컴퓨터 프로세서")(605)을 포함한다. 프로세서(605)는 제어기, 마이크로프로세서 및/또는 마이크로제어기일 수 있다. 컴퓨터 시스템(601)은 메모리 또는 메모리 위치(610)(예를 들어, 랜덤 액세스 메모리, 판독 전용 메모리, 플래시 메모리), 전자 저장 유닛(615)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(620)(예를 들어, 네트워크 어댑터), 및 캐시, 다른 메모리, 데이터 저장 장치 및/또는 전자 디스플레이 어댑터와 같은 주변 장치(625)를 또한 포함한다. 메모리(610), 저장 유닛(615), 인터페이스(620) 및 주변 장치(625)는 머더보드와 같은 통신 버스(실선)를 통해 CPU(605)와 통신한다. 저장 유닛(615)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(601)은 통신 인터페이스(620)의 도움으로 컴퓨터 네트워크("네트워크")(630)에 동작 가능하게 결합될 수 있다. 네트워크(630)는 인터넷, 인트라넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 익스트라넷일 수 있다. 네트워크(630)는 몇몇 경우에 원격통신 및/또는 데이터 네트워크이다. 네트워크(630)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크(630)는, 몇몇 경우에 컴퓨터 시스템(601)의 도움으로, 컴퓨터 시스템(601)에 결합된 디바이스가 클라이언트 또는 서버로서 거동하는 것을 가능하게 할 수도 있는 피어-투-피어 네트워크를 구현할 수 있다.
CPU(605)는 프로그램 또는 소프트웨어로 구체화될 수 있는 기계 판독 가능 명령어의 시퀀스를 실행할 수 있다. 명령어들은 메모리(610)와 같은 메모리 위치에 저장될 수도 있다. 명령어들은 CPU(605)에 지시될 수 있으며, 이 명령어들은 이후에 본 개시내용의 방법을 구현하도록 CPU(605)를 프로그래밍하거나 구성할 수 있다. CPU(605)에 의해 수행되는 동작의 예는 페치, 디코드, 실행 및 라이트백을 포함할 수 있다.
CPU(605)는 집적 회로와 같은 회로의 부분일 수 있다. 시스템(601)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 몇몇 경우에, 회로는 응용 주문형 집적 회로(ASIC)이다.
저장 유닛(615)은 드라이버, 라이브러리 및 세이브된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(615)은 사용자 데이터, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템(601)은 몇몇 경우에, 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(601)과 통신하는 원격 서버 상에 위치하는 것과 같이, 컴퓨터 시스템(601)의 외부에 있는 하나 이상의 부가의 데이터 저장 유닛을 포함할 수 있다.
컴퓨터 시스템(601)은 네트워크(630)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(601)은 사용자(예를 들어, 기록물 관리 시스템의 사용자)의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 퍼스널 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple® iPhone, Android 지원 디바이스, Blackberry®) 또는 개인 휴대 정보 단말을 포함한다. 사용자는 네트워크(630)를 거쳐 컴퓨터 시스템(601)에 액세스할 수 있다.
본 명세서에 설명된 바와 같은 방법은 예를 들어 메모리(610) 또는 전자 저장 유닛(615)과 같은 컴퓨터 시스템(601)의 전자 저장 위치에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행 가능 코드에 의해 구현될 수 있다. 기계 실행 가능 또는 기계 판독 가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서(605)에 의해 실행될 수 있다. 몇몇 경우에, 코드는 저장 유닛(615)으로부터 리트리빙될 수 있고 프로세서(605)에 의한 액세스 준비를 위해 메모리(610) 상에 저장될 수 있다. 몇몇 상황에서, 전자 저장 유닛(615)은 제외될 수 있고, 기계 실행 가능 명령어는 메모리(610)에 저장될 수 있다.
코드는 사전컴파일링되고, 코드를 실행하도록 적용된 프로세서를 갖는 기계와 함께 사용하도록 구성될 수 있거나, 또는 런타임 동안 컴파일링될 수 있다. 코드는 사전컴파일링된 또는 애즈-컴파일링된(as-compiled) 방식으로 코드가 실행하는 것이 가능하도록 선택할 수 있는 프로그래밍 언어로 공급될 수 있다.
컴퓨터 시스템(601)과 같은 본 명세서에 제공된 시스템 및 방법의 양태는 프로그래밍으로 구체화될 수 있다. 기술의 다양한 양태는 통상적으로 일 유형의 기계 판독 가능 매체 상에 전달되거나 구체화되는 기계(또는 프로세서) 실행 가능 코드 및/또는 연관 데이터의 형태의 "제품" 또는 "제조 물품"으로 고려될 수도 있다. 기계 실행 가능 코드는 메모리(예를 들어, 판독 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 유닛에 저장될 수 있다. "저장"형 매체는 컴퓨터, 프로세서 등과 같은 유형의 메모리 또는 그와 연관된 모듈, 예로서 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등 중 임의의 하나 또는 모두를 포함할 수 있으며, 이들은 소프트웨어 프로그래밍을 위한 비일시적 저장 장치를 언제나 제공할 수도 있다. 소프트에어의 모두 또는 일부는 때때로 인터넷 또는 다양한 원격통신 네트워크를 통해 통신될 수도 있다. 이러한 통신은 예를 들어, 하나의 컴퓨터 또는 프로세서로부터 다른 컴퓨터 또는 프로세서 내로, 예를 들어 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼 내로 소프트웨어의 로딩을 가능하게 할 수도 있다. 따라서, 소프트웨어 요소를 탑재할 수도 있는 다른 유형의 매체는 유선 및 광학 지상 네트워크를 통해 그리고 다양한 무선 링크에 걸쳐 로컬 디바이스들 사이의 물리적 인터페이스를 가로질러 사용되는 것과 같은 광학, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광학 링크 등과 같은 이러한 파를 운반하는 물리적 요소가 또한 소프트웨어가 탑재된 매체로서 고려될 수도 있다. 본 명세서에서 사용될 때, 비일시적 유형의 "저장" 매체에 한정되지 않으면, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는 데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 가능 코드와 같은 기계 판독 가능 매체는 이들에 한정되는 것은 아니지만, 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하는 다수의 형태를 취할 수도 있다. 비휘발성 저장 매체는 예를 들어, 도면에 도시되어 있는 데이터베이스 등을 구현하는 데 사용될 수도 있는 것과 같은, 임의의 컴퓨터(들) 내의 임의의 저장 디바이스 등과 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체는 동축 케이블; 구리 와이어 및 컴퓨터 시스템 내의 버스를 포함하는 와이어를 포함하는 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성되는 것과 같은 음파 또는 광파의 형태를 취할 수도 있다. 따라서, 일반적인 형태의 컴퓨터-판독 가능 매체는 예를 들어: 플로피 디스크, 가요성 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 홀의 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 반송파 전송 데이터 또는 명령어, 이러한 반송파를 전달하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수도 있는 임의의 다른 매체를 포함한다. 다수의 이들 형태의 컴퓨터 판독 가능 매체가 실행을 위해 프로세서에 하나 이상의 명령어의 하나 이상의 시퀀스를 전달하는 데 수반될 수도 있다.
컴퓨터 시스템(601)은 사용자가 예를 들어, 기록물 관리 시스템에 명령어를 제공하게 하고, 그리고/또는 기록물 관리 시스템이 사용자-관리 가능한 인터페이스로서 제시되게 하기 위한 사용자 인터페이스(UI)(640)를 포함하는 전자 디스플레이(635)를 포함할 수 있거나, 또는 통신할 수 있다. UI의 예는 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스를 비한정적으로 포함한다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현될 수 있다. 알고리즘은 중앙 처리 유닛(605)에 의한 실행시에 소프트웨어에 의해 구현될 수 있다. 알고리즘은 다른 동작들 중에서, 예를 들어, 본 명세서에 설명된 하나 이상의 분류 방법을 거쳐 하나 이상의 전자 기록물을 분류하고, 전자 태그를 태깅하고, 분류 템플릿에 대한 정의를 정의 및/또는 수신하고, 분류 유닛에 대한 정의를 정의 및/또는 수신하고, 분류 공식을 계산하고, 유닛 근접도 스코어를 결정하고, 템플릿 근접도 스코어를 결정하고, 사전결정된 임계 스코어를 비교하고, 그래프 데이터베이스를 생성, 탐색 및/또는 확장하고, 태그들, 분류 템플릿들 및 분류 유닛들 사이의 근접도 관계를 결정하고, 트레이닝 자료를 결정하고, 자동 분류 및 태깅을 위한 기록물 관리 시스템을 트레이닝하고, 만료일 이후에 트레이닝 자료를 만료시키고, 기록물 관리 시스템을 다른 방식으로 운영할 수 있다.
본 발명의 바람직한 실시예가 본 명세서에 도시되고 설명되었지만, 이러한 실시예는 단지 예로서만 제공된 것이라는 것이 당 기술 분야의 숙련자에게 명백할 것이다. 본 발명은 본 명세서 내에 제공된 특정 예들에 의해 한정되도록 의도된 것은 아니다. 본 발명은 전술된 명세서를 참조하여 설명되었지만, 본 명세서의 실시예의 설명 및 예시는 한정적인 개념으로 해석되도록 의도된 것은 아니다. 수많은 변형, 변경 및 치환이 이제 본 발명으로부터 벗어나지 않고 당 기술 분야의 숙련자에게 발생할 것이다. 더욱이, 본 발명의 모든 양태는 다양한 조건 및 변수에 의존하는 본 명세서에 설명된 특정 도시, 구성 또는 상대 비율에 한정되지 않는다는 것이 이해되어야 한다. 본 명세서에 설명된 본 발명의 실시예에 대한 다양한 대안이 본 발명을 실시하는 데 채용될 수 있다는 것이 이해되어야 한다. 따라서, 본 발명은 임의의 이러한 대안, 수정, 변형 또는 등가물을 또한 커버할 것으로 고려된다. 이하의 청구범위는 본 발명의 범위를 정의하고, 이들 청구범위 및 이들의 등가물의 범주 내의 방법 및 구조가 이에 의해 커버되는 것으로 의도된다.

Claims (20)

  1. 전자 기록물을 분류하기 위한 컴퓨터 구현 방법으로서,
    (a) 하나 이상의 컴퓨터 프로세서의 도움으로, 분류 템플릿의 라이브러리에 액세스하는 단계 - 상기 분류 템플릿의 상기 라이브러리의 각각의 분류 템플릿은 하나 이상의 태그 및 하나 이상의 분류 유닛을 포함하고, 분류 유닛은 (i) 상기 전자 기록물의 영역 또는 구역 및 (ii) 분류 방법을 포함함 -;
    (b) 상기 전자 기록물을 상기 분류 템플릿의 상기 라이브러리의 제1 분류 템플릿과 매칭시키는 단계;
    (c) 상기 전자 기록물에 대한 상기 제1 분류 템플릿에 대한 템플릿 근접도 스코어를 결정하는 단계 - 상기 템플릿 근접도 스코어는 상기 전자 기록물 내의 영역 또는 구역에 배치된 콘텐츠에 적용된 상기 분류 방법에 적어도 부분적으로 기초함 -; 및
    (d) 상기 템플릿 근접도 스코어에 적어도 부분적으로 기초하여 상기 제1 분류 템플릿의 하나 이상의 태그를 상기 전자 기록물에 할당하는 단계
    를 포함하는 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    상기 분류 템플릿의 상기 라이브러리의 제2 분류 템플릿에 대해 상기 (b) 단계 내지 상기 (d) 단계를 반복하는 단계
    를 더 포함하는 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  3. 제1항에 있어서,
    상기 템플릿 근접도 스코어가 사전결정된 임계 스코어보다 큰 경우, 상기 제1 분류 템플릿의 하나 이상의 태그가 상기 전자 기록물에 할당되는 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  4. 제1항에 있어서,
    적어도 2개의 분류 템플릿은 동일한 분류 유닛을 공유하는 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  5. 제1항에 있어서,
    상기 제1 분류 템플릿 내의 각각의 분류 유닛에 대한 유닛 근접도 스코어를 결정하는 단계
    를 더 포함하고, 상기 유닛 근접도 스코어는 상기 전자 기록물 내의 상기 분류 유닛의 영역 또는 구역 내에 배치된 콘텐츠에 적용되는 상기 분류 유닛의 분류 방법에 적어도 부분적으로 기초하고, 상기 템플릿 근접도 스코어는 각각의 분류 유닛에 대해 결정된 유닛 근접도 스코어들의 집계인 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  6. 제1항에 있어서,
    상기 분류 방법은, (i) 정규 표현식의 패턴, (ii) 품사(part of speech)의 패턴, 및 (iii) 하나 이상의 분류 알고리즘으로 이루어진 그룹의 적어도 하나의 구성원인 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  7. 제6항에 있어서,
    상기 유닛 근접도 스코어는 2진수인 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  8. 제1항에 있어서,
    사용자로부터 상기 전자 기록물에 제1 태그를 할당하기 위한 명령어를 수신하는 단계;
    상기 전자 기록물에 상기 제1 태그를 할당하는 단계;
    상기 전자 기록물의 콘텐츠를 상기 제1 태그로서 분류하기 위한 트레이닝(training) 자료로서 하나 이상의 데이터 베이스에 저장하는 단계; 및
    상기 전자 기록물의 분류 방법을 상기 트레이닝 자료로부터의 제1 태그로서 학습하는 단계
    를 더 포함하는 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  9. 제1항에 있어서,
    상기 분류 템플릿의 라이브러리는 그래프 데이터베이스로부터 액세스되고, 상기 그래프 데이터베이스는 상기 분류 템플릿의 라이브러리 및 분류 유닛들의 라이브러리를 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  10. 제1항에 있어서,
    상기 전자 기록물을 상기 분류 템플릿들의 라이브러리의 상기 제1 분류 템플릿과 매칭시키는 단계는, 상기 제1 분류 템플릿의 각각의 분류 유닛에 대해, 상기 전자 기록물의 영역 또는 구역에 배치된 콘텐츠에 상기 분류 방법을 적용하는 단계를 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 구현 방법.
  11. 전자 기록물을 분류하기 위한 컴퓨터 시스템으로서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 통신가능하게 결합되고, 상기 전자 기록물을 분류하는 방법을 구현하기 위해 개별적으로 또는 집합적으로 상기 하나 이상의 프로세서에 의해 실행 가능한 명령어를 포함하는 메모리
    를 포함하고, 상기 전자 기록물을 분류하는 방법은,
    (a) 분류 템플릿에 대한 정의를 컴퓨터 네트워크를 통해 사용자로부터 수신하는 단계 - 상기 분류 템플릿은 하나 이상의 태그 및 하나 이상의 분류 유닛에 의해 정의되고, 상기 분류 유닛은 적어도 (i) 상기 전자 기록물의 영역 또는 구역 및 (ii) 분류 방법에 의해 정의됨 -;
    (b) 상기 전자 기록물을 상기 분류 템플릿과 매칭시키는 단계;
    (c) 상기 전자 기록물에 대한 상기 분류 템플릿에 대한 템플릿 근접도 스코어를 결정하는 단계 - 상기 템플릿 근접도 스코어는 상기 전자 기록물의 영역 또는 구역에 배치된 콘텐츠에 적용된 상기 분류 방법에 적어도 부분적으로 기초함 -; 및
    (d) 상기 분류 템플릿의 하나 이상의 태그를 상기 템플릿 근접도 스코어에 적어도 부분적으로 기초하여 상기 전자 기록물에 할당하는 단계
    를 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  12. 제11항에 있어서,
    상기 전자 기록물을 분류하는 방법은 상기 분류 템플릿 내의 각각의 분류 유닛에 대한 유닛 근접도 스코어를 결정하는 것을 반복하는 단계를 더 포함하고, 상기 유닛 근접도 스코어는 상기 전자 기록물 내의 상기 분류 유닛의 영역 또는 구역 내에 배치된 콘텐츠에 적용되는 상기 분류 유닛의 분류 방법에 적어도 부분적으로 기초하고, 상기 템플릿 근접도 스코어는 각각의 분류 유닛에 대해 결정된 상기 유닛 근접도 스코어들의 집계인 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  13. 제11항에 있어서,
    상기 템플릿 근접도 스코어가 사전결정된 임계 스코어보다 큰 경우, 제1 분류 템플릿의 하나 이상의 태그가 상기 전자 기록물에 할당되는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  14. 제11항에 있어서,
    상기 분류 유닛은 페이지 인덱스 및 치수(dimension)를 더 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  15. 제11항에 있어서,
    상기 전자 기록물을 분류하는 방법은 그래픽 사용자 인터페이스 상에 상기 전자 기록물의 하나 이상의 페이지를 디스플레이하는 단계를 더 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  16. 제15항에 있어서,
    상기 정의는 상기 그래픽 사용자 인터페이스로부터 수신되는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  17. 제16항에 있어서,
    상기 전자 기록물의 영역 또는 구역에 대한 정의는 상기 그래픽 사용자 인터페이스 상의 상기 전자 기록물의 하나 이상의 페이지에 걸쳐 디스플레이되는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  18. 제11항에 있어서,
    상기 분류 방법은, (i) 정규 표현식의 패턴, (ii) 품사의 패턴, 및 (iii) 하나 이상의 분류 알고리즘으로 이루어지는 그룹의 적어도 하나의 구성원인 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  19. 제11항에 있어서,
    상기 전자 기록물을 분류하는 방법은,
    사용자로부터 상기 전자 기록물에 제1 태그를 할당하기 위한 명령어를 수신하는 단계;
    상기 전자 기록물에 상기 제1 태그를 할당하는 단계;
    상기 전자 기록물의 콘텐츠를 상기 제1 태그로서 분류하기 위한 트레이닝 자료로서 하나 이상의 데이터 베이스에 저장하는 단계; 및
    상기 전자 기록물의 분류 방법을 상기 트레이닝 자료로부터의 제1 태그로서 학습하는 단계
    를 더 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
  20. 제11항에 있어서,
    상기 분류 템플릿의 라이브러리는 그래프 데이터베이스로부터 액세스되고, 상기 그래프 데이터베이스는 상기 분류 템플릿의 라이브러리 및 분류 유닛들의 라이브러리를 포함하는 것인 전자 기록물을 분류하기 위한 컴퓨터 시스템.
KR1020197006605A 2016-08-09 2017-08-09 전자 기록물 태깅을 위한 시스템 및 방법 KR102448370B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662372556P 2016-08-09 2016-08-09
US62/372,556 2016-08-09
PCT/US2017/046053 WO2018031628A1 (en) 2016-08-09 2017-08-09 Systems and methods for electronic records tagging

Publications (2)

Publication Number Publication Date
KR20190062388A true KR20190062388A (ko) 2019-06-05
KR102448370B1 KR102448370B1 (ko) 2022-09-28

Family

ID=61162522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197006605A KR102448370B1 (ko) 2016-08-09 2017-08-09 전자 기록물 태깅을 위한 시스템 및 방법

Country Status (8)

Country Link
US (3) US10387456B2 (ko)
EP (1) EP3497554A4 (ko)
JP (1) JP7189125B2 (ko)
KR (1) KR102448370B1 (ko)
CN (1) CN109863483A (ko)
CA (1) CA3033642A1 (ko)
MX (1) MX2019001676A (ko)
WO (1) WO2018031628A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220127484A (ko) * 2021-03-11 2022-09-20 주식회사 한글과컴퓨터 식별 태그를 기초로 전자 문서에 대한 데이터베이스화 처리를 수행하는 전자 문서 관리 서버 및 그 동작 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102448370B1 (ko) 2016-08-09 2022-09-28 립코드 인크. 전자 기록물 태깅을 위한 시스템 및 방법
US10740405B1 (en) * 2019-04-03 2020-08-11 Capital One Services, Llc Methods and systems for filtering vehicle information
SG10201904554TA (en) 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
US11893505B1 (en) 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11776291B1 (en) 2020-06-10 2023-10-03 Aon Risk Services, Inc. Of Maryland Document analysis architecture
US11893065B2 (en) * 2020-06-10 2024-02-06 Aon Risk Services, Inc. Of Maryland Document analysis architecture
CN111755091B (zh) * 2020-06-28 2024-02-27 北京嘉和海森健康科技有限公司 一种电子病历的处理方法及装置
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178081A (ja) * 2001-12-04 2003-06-27 Matsushita Electric Ind Co Ltd レイアウトグラフマッチングを使用した文書分類及びラベル付け方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3515586B2 (ja) * 1992-10-16 2004-04-05 株式会社ジャストシステム 文書処理方法及び装置
DE59708043D1 (de) * 1996-06-17 2002-10-02 Siemens Ag Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder
US6340978B1 (en) * 1997-01-31 2002-01-22 Making Everlasting Memories, Ltd. Method and apparatus for recording and presenting life stories
JP2000259669A (ja) * 1999-03-12 2000-09-22 Ntt Data Corp 文書分類装置及びその方法
JP2002108893A (ja) 2000-09-28 2002-04-12 Matsushita Electric Ind Co Ltd 文書情報管理装置
US6996295B2 (en) * 2002-01-10 2006-02-07 Siemens Corporate Research, Inc. Automatic document reading system for technical drawings
US7188107B2 (en) 2002-03-06 2007-03-06 Infoglide Software Corporation System and method for classification of documents
JP4124348B2 (ja) 2003-06-27 2008-07-23 株式会社日立製作所 記憶システム
JP4370873B2 (ja) 2003-10-17 2009-11-25 富士ゼロックス株式会社 文書分類装置、プログラムおよび文書分類方法
JP2005227974A (ja) 2004-02-12 2005-08-25 Fuji Xerox Co Ltd 文書管理装置および方法
JP4747591B2 (ja) 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US20070168382A1 (en) * 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
US7899816B2 (en) 2006-08-24 2011-03-01 Brian Kolo System and method for the triage and classification of documents
JP2010509691A (ja) * 2006-11-13 2010-03-25 エクセジー・インコーポレイテツド コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム
KR101139192B1 (ko) 2008-01-08 2012-04-26 미쓰비시덴키 가부시키가이샤 정보 필터링 시스템, 정보 필터링 방법 및 정보 필터링 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP4959603B2 (ja) 2008-02-21 2012-06-27 ネットスター株式会社 ドキュメントを解析するためのプログラム,装置および方法
JP5245062B2 (ja) * 2008-04-25 2013-07-24 中部電力株式会社 文章情報グループ帰属性判別支援装置
US8396591B2 (en) * 2008-06-25 2013-03-12 Valbrea Technologies, Inc. System and method for data collection and analysis using robotic devices
JP5271667B2 (ja) 2008-10-27 2013-08-21 株式会社日立ソリューションズ メタデータ抽出装置およびその方法
JP5380040B2 (ja) * 2008-10-30 2014-01-08 株式会社日立ソリューションズ 文書処理装置
US8140540B2 (en) * 2009-03-16 2012-03-20 International Business Machines Corporation Classification of electronic messages based on content
US9390089B2 (en) * 2009-12-17 2016-07-12 Wausau Financial Systems, Inc. Distributed capture system for use with a legacy enterprise content management system
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
JP5616865B2 (ja) 2011-09-13 2014-10-29 株式会社日立ソリューションズ 文書分類方法
US8724907B1 (en) * 2012-03-28 2014-05-13 Emc Corporation Method and system for using OCR data for grouping and classifying documents
JP5836893B2 (ja) * 2012-07-02 2015-12-24 株式会社日立ソリューションズ ファイル管理装置、ファイル管理方法、及びプログラム
US20140046954A1 (en) * 2012-08-07 2014-02-13 3M Innovative Properties Company And A Completed Software tool for creation and management of document reference templates
US9589184B1 (en) 2012-08-16 2017-03-07 Groupon, Inc. Method, apparatus, and computer program product for classification of documents
EP3011473A1 (en) 2013-06-21 2016-04-27 Hewlett-Packard Development Company, L.P. Topic based classification of documents
US9922102B2 (en) * 2013-07-31 2018-03-20 Splunk Inc. Templates for defining fields in machine data
WO2017033200A1 (en) 2015-08-26 2017-03-02 Minacs Private Limited Electronic sorting and classification of documents
US10019740B2 (en) * 2015-10-07 2018-07-10 Way2Vat Ltd. System and methods of an expense management system based upon business document analysis
KR102448370B1 (ko) 2016-08-09 2022-09-28 립코드 인크. 전자 기록물 태깅을 위한 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178081A (ja) * 2001-12-04 2003-06-27 Matsushita Electric Ind Co Ltd レイアウトグラフマッチングを使用した文書分類及びラベル付け方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220127484A (ko) * 2021-03-11 2022-09-20 주식회사 한글과컴퓨터 식별 태그를 기초로 전자 문서에 대한 데이터베이스화 처리를 수행하는 전자 문서 관리 서버 및 그 동작 방법

Also Published As

Publication number Publication date
EP3497554A1 (en) 2019-06-19
US20180129729A1 (en) 2018-05-10
US20200142913A1 (en) 2020-05-07
JP2019530063A (ja) 2019-10-17
JP7189125B2 (ja) 2022-12-13
CN109863483A (zh) 2019-06-07
MX2019001676A (es) 2019-09-18
EP3497554A4 (en) 2020-04-08
US11580141B2 (en) 2023-02-14
US10387456B2 (en) 2019-08-20
KR102448370B1 (ko) 2022-09-28
CA3033642A1 (en) 2018-02-15
WO2018031628A1 (en) 2018-02-15
US20210382919A1 (en) 2021-12-09
US11048732B2 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
US11580141B2 (en) Systems and methods for records tagging based on a specific area or region of a record
US20210319032A1 (en) Systems and methods for contextual retrieval and contextual display of records
CN106250385B (zh) 用于文档的自动化信息抽象处理的系统和方法
US9547712B2 (en) Automatic document classification via content analysis at storage time
US20200089947A1 (en) Method and system for assessing similarity of documents
US20110314024A1 (en) Semantic content searching
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
US11232114B1 (en) System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
EP3301603A1 (en) Improved search for data loss prevention
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
KR102532216B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템
CN115690821A (zh) 一种电子卷宗智能编目方法和计算机设备
US20170169032A1 (en) Method and system of selecting and orderingcontent based on distance scores
CN117875321A (zh) 信息录入方法、装置、计算机设备及存储介质
CN115907442A (zh) 业务需求的建模方法、装置、电子设备和介质
CN115618054A (zh) 视频推荐方法及装置
CN110750976A (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN112507186A (zh) 网页元素分类方法
Singh Developing web crawler and categorization of newspaper text

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right