KR20240008631A - 문서 검색 시스템 - Google Patents
문서 검색 시스템 Download PDFInfo
- Publication number
- KR20240008631A KR20240008631A KR1020220085719A KR20220085719A KR20240008631A KR 20240008631 A KR20240008631 A KR 20240008631A KR 1020220085719 A KR1020220085719 A KR 1020220085719A KR 20220085719 A KR20220085719 A KR 20220085719A KR 20240008631 A KR20240008631 A KR 20240008631A
- Authority
- KR
- South Korea
- Prior art keywords
- electronic document
- text
- document
- search
- unit
- Prior art date
Links
- 238000003058 natural language processing Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 208000025721 COVID-19 Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
문서 검색 시스템이 개시된다. 본 발명의 일 실시예에 따른 문서 검색 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부; 상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;를 포함한다. 본 발명에 의하면, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템이 제공된다.
Description
본 발명은 문서 검색 시스템에 관한 것으로서, 보다 상세하게는 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템에 관한 것이다.
최근 수많은 정보를 담고 있는 문서들이 매우 빠른 속도로 생산되고 있다. 특히 코로나-19 펜데믹 이후 세계 다양한 산업의 기업 및 기관은 디지털 워크스페이스 도입을 위하여 전자문서 제품·서비스에 관심이 높으며, 다양한 산업에서 전자문서를 활용한 업무 개선에 돌입하고 있다. 일 기관의 조사에 따르면, 2019년부터 연평균 29%의 높은 성장을 보인 전 세계 전자문서 시장이 코로나-19 펜데믹 사태로 인한 수요 증가로 2026년까지 약 61억 2,000만 달러 규모로 성장할 것으로 전망한 바 있다.
많은 수의 전자문서가 생산되고, 필요 시 전자문서들을 검색하여 내용을 열람하거나 수정 등의 필요가 있는데, 데이터베이스 등을 통해 검색하는 경우 전자문서의 제목(파일명)만 검색이 가능하여, 실제 전자문서의 내용을 확인하기 위해서는 일일히 전자문서를 열어서 내용을 확인하여야 하는 문제점이 있으며 이는 업무 비효율의 일부분을 차지하고 있다.
한편, 전자문서의 본문에는 상당 수의 텍스트를 포함한 콘텐트가 포함되어 있으며, 이를 일일히 색인 작업을 통해 검색을 하기에는 많은 수의 전자문서를 감안할 때 검색시간이 길어질 수 있으며 나아가 검색 정확도가 떨어지는 문제점이 있다.
본 발명의 일 실시예에 따른 문서 검색 시스템은, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템을 제공하는 것을 목적으로 한다.
본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 문서 검색 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부; 상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;를 포함한다.
여기서, 상기 제1전자문서 파일은 이미지 콘텐트와 도표 컨텐트 중 적어도 하나 이상을 포함하는 시각적 콘텐트를 더 포함하며, 상기 전처리부는, 상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 콘텐트의 좌표를 분석하여 상기 시각적 콘텐트의 영역을 분석하고, 상기 시각적 콘텐트 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성할 수 있다.
여기서, 상기 전처리부는, 상기 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 상기 제2전자문서 생성 시 포함시킬 수 있다.
여기서, 상기 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷일 수 있다.
본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.
본 발명에 따른 문서 검색 시스템에 의하면, 제1전자문서의 본문에 포함된 단어도 검색하여, 해당 단어가 본문에 포함된 제1전자문서를 사용자에게 리스팅할 수 있다.
또한, 시각적 컨텐츠를 제외하고 텍스트만을 추출하며 나아가 명사만 추출하여 저장한 뒤 검색함으로써 검색 효율이 매우 우수하다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 문서 검색 시스템의 구성도
도 2는 본 발명의 일 실시예에 따른 문서 검색 시스템의 텍스트 추출 설명도
도 3 및 도 4는 일 실시예에 따른 문서 검색 시스템의 자연어 처리부의 설명도이다.
도 2는 본 발명의 일 실시예에 따른 문서 검색 시스템의 텍스트 추출 설명도
도 3 및 도 4는 일 실시예에 따른 문서 검색 시스템의 자연어 처리부의 설명도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
이하, 본 발명에 따른 일 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.
본 발명의 일 실시예에 따른 문서 검색 시스템은, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템에 관한 것이다.
도 1은 본 발명의 일 실시예에 따른 문서 검색 시스템의 구성도이며, 도 2는 본 발명의 일 실시예에 따른 문서 검색 시스템의 텍스트 추출 설명도이며, 도 3 및 도 4는 일 실시예에 따른 문서 검색 시스템의 자연어 처리부의 설명도
본 발명의 일 실시예에 따른 문서 검색 시스템(1000)은, 전자문서 수집부(100)와, 전처리부(200)와, 자연어 처리부(300) 및 검색부(400)를 포함한다.
전자문서 수집부(100)는 작성된 제1전자문서를 수신하여 제1전자문서의 본문에 포함된 명사들이 검색될 수 있도록 제2전자문서를 생성하는 구성이다.
제1전자문서는 일반적인 문서 작업 시 사용하는 소프트웨어를 통해 작성된 문서이다. 제1전자문서의 포맷은 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 PDF파일 중 적어도 어느 하나일 수 있다.
제1전자문서에는 사용자가 직접 입력한 텍스트들이 포함되며, 나아가 사용자가 직접 입력한 이미지 콘텐트와 도표 컨텐트를 포함할 수 있다. 본 실시예에서 텍스트를 제외한 컨텐트, 즉 이미지 콘텐트와 도표 컨텐트를 시각적 컨텐트라고 한다.
전자문서 수집부(100)는 제1전자문서를 수신한 뒤 제2전자문서 내의 텍스트를 추출하여 제1전자문서와는 별도의 제2전자문서를 생성한다. 본 실시예에서 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷이다.
따라서 제1전자문서의 포맷이 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 중 어느 하나인 경우, 제2전자문서는 오피스 오픈 XML(OOXML), 오픈 도큐먼트(Open Document) 및 개방형 워드프로세서 마크업 언어(OWPML) 포맷일 수 있다. 구체적으로 제2전자문서는 XML포맷으로서, 사용된 프로그램에 따라 워드 프로세서(DOCX, ODT, HWPX), 스프레드시트(XLSX, ODS, CELL) 및 프레젠테이션(PPTX, ODP, SHOW) 문서 중 적어도 어느 하나일 수 있다.
제1전자문서가 텍스트만으로 이루어진 경우 전자문서 수집부(100)는 제1전자문서에서 텍스트를 모두 추출하여 제2전자문서를 생성한다.
그러나 제1전자문서에 상술한 시각적 컨텐트가 포함된 경우, 전자문서 수집부(100)는 제2전자문서를 생성할 때 제1전자문서에 포함된 시각적 컨텐트를 추출하고, 시각적 컨텐트 및 시각적 컨텐트에 포함된 텍스트들은 제외한다.
본 실시예는 상술한 바와 같이 제1전자문서의 본문에 포함된 명사들도 검색하여 리스팅될 수 있도록 하는데, 사용자들이 검색하고자 하는 대상이 주제나 주요 키워드로서 명사이며, 한편 시각적 컨텐트 내부에 포함된 명사의 경우 검색 대상에서 제외되는 경우가 많은 점을 분석하여, 해당 시각적 컨텐트에 포함된 텍스트들은 제외시킨다.
이에 따라 전자문서 수집부(100)는 제1전자문서의 각 페이지 내에서 시각적 컨텐트들을 추출한다. 전자문서 수집부(100)는 제2전자문서 파일의 포맷 구조 분석을 한 뒤 Contour 알고리즘을 적용하여 시각적 콘텐트의 좌표를 분석한다. 즉 전자문서 수집부(100)는 제2전자문서의 오피스 오픈 XML, 오픈 도큐먼트 및 개방형 워드프로세서 마크업 언어 중 적어도 어느 하나 파일 여부에 따른 파일 내부의 XML 포맷 여부를 판단하고, XML 포맷 구조 분석을 통해 시각적 콘텐트가 위치하는 좌표를 분석한다.
이 후 추출된 모든 외곽 좌표를 연결된 선으로 인식 후 외형선 및 좌표 정보를 산출한다.
즉, 좌표를 통해 제2전자문서를 텍스트 콘텐트와 시각적 콘텐트로 분류한다. 그리고 좌표 정보 즉 분류된 텍스트 콘텐트와 시각적 콘텐트 정보를 전처리부(200)로 전송한다.
전처리부(200)는 전자문서 수집부(100)로부터 제2전자문서를 수신받아, 제2전자문서에 포함된 텍스트를 형태소 별로 구분하여 저장한다. 전처리부(200)는 정규화부와 토큰화부 및 필터링부를 포함할 수 있다. 정규화부는 제2전자문서에 포함된 텍스트 중 검색과 관련없는 정보 예를 들어 특수 문자(-, + 등)와 같은 구문을 제거한다.
그리고 토큰화부는 정규화 처리 된 텍스트들에 대해 형태소 단위로 토큰화 처리를 수행한다. 이 때 토큰화부는 형태소이지만 한 단어로 이루어진 의존명사(예컨대, '것', '수', '때' 등)를 제외한다.
필터링부는 전자문서 생성부로부터 수신한 좌표 정보를 통해 시각적 콘텐트와 텍스트 콘텐트 정보를 인식하고, 시각적 컨텐트 내부에 포함되는 텍스트들은 제외하고 제2전자문서를 생성한다.
제1전자문서에서 텍스트를 모두 추출한 뒤 제2전자문서를 생성할 때 시각적 컨텐트 내부에 포함된 텍스트를 제외하는데, 시각적 컨텐트 내부에 포함된 텍스트가 텍스트 컨텐트 내부에도 포함된 경우에는 제외되지 않는다. 구체적으로 필터링부는 제2전자문서를 생성할 때 시각적 컨텐트 내부에 포함된 텍스트를 제외하는데, 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 제2전자문서 생성 시 이를 포함시킨다.
자연어 처리부(300)는 제2전자문서에 포함된 텍스트들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅을 수행한다.
즉 태깅을 수행하여 정규화 처리 및 형태소 단위로 토큰화 처리가 수행 된 텍스트들에 대해 품사 태깅을 수행한 뒤, 명사를 제외한 다른 품사들이 태깅된 텍스트들은 제외하고 제2전자문서를 생성한다.
검색부(400)는 사용자로부터 검색어가 입력되면 자연어 처리가 완료된 제2전자문서의 텍스트들 즉, 자연어 처리부(300)에서 분류된 명사들을 검색어와 매칭한다.
각각의 제1전자문서의 본문의 내용들은 제2전자문서를 거쳐 자연어 처리가 완료된 후 데이터베이스(500)에 저장된다. 검색부(400)는 사용자로부터 검색어가 입력되면, 데이터베이스(500)에 저장된 자연어 처리된 명사들과 매칭하고, 매칭된 명사가 포함된 문서들을 리스팅한다.
상술한 바와 같이 본 발명에 의하면, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템이 제공된다.
본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 청구범위 뿐만 아니라, 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
1000 : 문서 검색 시스템
100 : 전자문서 수집부 200 : 전처리부
210 : 정규화부 220 : 토큰화부
230 : 필터링부 300 : 자연어 처리부
400 : 검색부
100 : 전자문서 수집부 200 : 전처리부
210 : 정규화부 220 : 토큰화부
230 : 필터링부 300 : 자연어 처리부
400 : 검색부
Claims (4)
- 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부;
상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부;
상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부;
사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;
를 포함하는 문서 검색 시스템.
- 제1항에 있어서,
상기 제1전자문서 파일은 이미지 콘텐트와 도표 컨텐트 중 적어도 하나 이상을 포함하는 시각적 콘텐트를 더 포함하며,
상기 전처리부는,
상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 콘텐트의 좌표를 분석하여 상기 시각적 콘텐트의 영역을 분석하고, 상기 시각적 콘텐트 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성하는 문서 검색 시스템.
- 제2항에 있어서,
상기 전처리부는,
상기 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 상기 제2전자문서 생성 시 포함시키는 문서 검색 시스템.
- 제3항에 있어서,
상기 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷인 문서 검색 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220085719A KR20240008631A (ko) | 2022-07-12 | 2022-07-12 | 문서 검색 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220085719A KR20240008631A (ko) | 2022-07-12 | 2022-07-12 | 문서 검색 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240008631A true KR20240008631A (ko) | 2024-01-19 |
Family
ID=89717597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220085719A KR20240008631A (ko) | 2022-07-12 | 2022-07-12 | 문서 검색 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240008631A (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102019194B1 (ko) | 2017-11-22 | 2019-09-06 | 주식회사 와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
KR20210105764A (ko) | 2020-02-19 | 2021-08-27 | 한국전자통신연구원 | 전자문서 내의 텍스트 추출 방법 및 관련 장치 |
-
2022
- 2022-07-12 KR KR1020220085719A patent/KR20240008631A/ko unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102019194B1 (ko) | 2017-11-22 | 2019-09-06 | 주식회사 와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
KR20210105764A (ko) | 2020-02-19 | 2021-08-27 | 한국전자통신연구원 | 전자문서 내의 텍스트 추출 방법 및 관련 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al Omran et al. | Choosing an NLP library for analyzing software documentation: a systematic literature review and a series of experiments | |
KR102158352B1 (ko) | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 | |
Surdeanu et al. | Using predicate-argument structures for information extraction | |
Brooke et al. | GutenTag: an NLP-driven tool for digital humanities research in the Project Gutenberg corpus | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
JP5209235B2 (ja) | ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること | |
Shahrour et al. | Improving Arabic diacritization through syntactic analysis | |
JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
Scheible et al. | A gold standard corpus of Early Modern German | |
Smadja | From n-grams to collocations: An evaluation of Xtract | |
US20190155912A1 (en) | Multi-dimensional query based extraction of polarity-aware content | |
Stanković et al. | Annotation of the serbian eltec collection | |
Nanba et al. | Bilingual PRESRI-Integration of Multiple Research Paper Databases. | |
KR102518843B1 (ko) | Lda를 이용한 기업 컨텐츠 관리 시스템 | |
Alotaiby et al. | Arabic vs. English: Comparative statistical study | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
KR20240008631A (ko) | 문서 검색 시스템 | |
Brierley et al. | Tools for Arabic Natural Language Processing: a case study in qalqalah prosody | |
Luong et al. | Word graph-based multi-sentence compression: Re-ranking candidates using frequent words | |
Goldberg et al. | Noun phrase chunking in hebrew: Influence of lexical and morphological features | |
CN112711695A (zh) | 基于内容的搜索建议生成方法及装置 | |
Jivani et al. | The multi-liaison algorithm | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
Kaalep et al. | The estonian reference corpus: Its composition and morphology-aware user interface |