KR20170123331A - 정보 추출 방법 및 장치 - Google Patents

정보 추출 방법 및 장치 Download PDF

Info

Publication number
KR20170123331A
KR20170123331A KR1020177027765A KR20177027765A KR20170123331A KR 20170123331 A KR20170123331 A KR 20170123331A KR 1020177027765 A KR1020177027765 A KR 1020177027765A KR 20177027765 A KR20177027765 A KR 20177027765A KR 20170123331 A KR20170123331 A KR 20170123331A
Authority
KR
South Korea
Prior art keywords
paragraph
node
text
web page
tag
Prior art date
Application number
KR1020177027765A
Other languages
English (en)
Inventor
쇼우케 친
요우 한
쯔양 첸
페이차오 마
페이쯔 쉬
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20170123331A publication Critical patent/KR20170123331A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • G06F17/30327
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

본 출원은 정보 추출 방법 및 장치를 개시한다. 상기 방법의 일 구체적인 실시예는, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함한다. 해당 실시예는 정보에 대해 자동적이며 정확한 추출을 실현한다.

Description

정보 추출 방법 및 장치
본 출원은 2015년 12월 30일에 제출한 제201511022937.X호 중국 특허 출원의 우선권을 주장하는 바, 상기 출원의 모든 내용은 참조로서 본 출원에 원용된다.
본 출원은 컴퓨터 기술 분야에 관한 것으로, 더 상세하게 정보 기술 분야, 특히는 정보 추출 방법 및 장치에 관한 것이다.
인터넷 기술이 왕성하게 발전함에 따라, 인터넷 상의 정보 자원들이 갈수록 풍부해지고 있다. 한편, 검색 엔진은 네트웨크 사용자들이 인터넷 상에서 요구하는 정보를 신속하게 찾을 수 있도록 상당한 편의성을 제공한다. 다른 한편, 인터넷 상의 자원이 증가하고 검색 엔진에 사용자 행위 데이터가 누적됨에 따라, 검색 엔진은 자동 문답을 제공하는 기능을 구비하게 되었다. 전통적인 검색 엔진에 비해, 자동 문답 시스템의 검색 결과는 더이상 순서 배열된 웹 페이지 목록에만 그치는 것이 아니라, 관련 웹페이지로부터 직접 추출한 해답이며, 사용자는 더이상 시간을 소모하여 웹페이지로부터 해답을 찾을 필요가 없으므로, 사용자의 시간을 절약한다.
자동 문답 시스템으로 색인된 내용이 웹페이지 전체의 내용이 아니라, 웹 페이지 내용에 문답을 포함한 한 단락 또는 여러 구절의 문장이며, 인터넷 상에 자연적으로 존재하는 질문 및 질문의 해답에 대한 자원이 상대적으로 결핍하므로, 웹페이지 내용으로부터 질문 및 질문의 해답에 대한 정보를 추출하는 것이 요구되고 있다.
본 출원은 상기 배경 기술 부분에서 제시된 기술적 문제를 해결하기 위해 안출된 것으로, 개선된 정보 추출 방법 및 장치를 제공하는데 그 목적이 있다.
제1 양태에 있어서, 본 출원은 정보 추출 방법을 제공하며, 상기 방법은, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계는, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계; 및 상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계는, 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하는 단계; 규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하는 단계; 및 상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계는, 상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하는 단계; 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하는 단계; 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하는 단계; 및 순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계는, 각 본문 노드 중의 적어도 하나의 블록 요소를 식별하는 단계; 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하는 단계; 및 블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계는, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하는 단계; 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하는 단계; 및 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계는, 식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하는 단계; 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하는 단계; 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하는 단계; 및 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하는 단계를 포함한다.
제2 양태에 있어서, 본 출원은 정보 추출 장치를 제공하며, 상기 장치는, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성된 해석 유닛; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성된 구분 유닛; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성된 분류 유닛; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된 추출 유닛;을 포함한다.
일부 실시예에 있어서, 상기 구분 유닛은, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하도록 구성된 식별 서브 유닛; 및 상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하도록 구성된 구분 서브 유닛;을 포함한다.
일부 실시예에 있어서, 상기 해석 유닛은, 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하고, 규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하고, 상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하도록 더 구성된다.
일부 실시예에 있어서, 상기 식별 서브 유닛은, 상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하고, 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하고, 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하고, 순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하도록 더 구성된다.
일부 실시예에 있어서, 상기 구분 유닛은, 각 본문 노드 중의 적어도 하나의 블록 요소를 식별하고, 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 더 구성된다.
일부 실시예에 있어서, 상기 분류 유닛은, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하고, 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하고, 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하도록 더 구성된다.
일부 실시예에 있어서, 상기 추출 유닛은, 식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하고, 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하고, 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고, 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하도록 더 구성된다.
본 출원에서 제공하는 정보 추출 방법 및 장치는, 웹 페이지 문서를 태그 트리 구조로 해석한 다음, 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 문단 블록을 생성하고, 마지막으로 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하고, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출함으로써, 정보의 자동적이고 정확한 추출을 실현한다.
이하 첨부된 도면들을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터, 본 발명의 기타 특징, 목적 및 장점들은 더욱 명확해 질 것이다.
도 1은 본 출원이 적용될 수 있는 예씨적인 시스템 체계구조도이다.
도 2는 본 출원의 정보 추출 방법에 따른 일 실시예의 흐름도이다.
도 3은 본 출원의 정보 추출 방법에 따른 일 응용정경의 예시도이다.
도 4는 본 출원의 정보 추출 방법에 따른 다른 일 실시예의 흐름도이다.
도 5는 본 출원의 정보 추출 장치에 따른 일 시시예의 구조적 개략도이다.
도 6은 본 출원의 실시예의 단말기 장치 및 서버를 실현하기에 적합한 컴퓨터 시스템의 구조적 개략도이다.
이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.
본 발명의 실시예 및 실시예의 특징들은 서로 모순되지 않는 한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도1은 본 출원의 피싱 웹 페이지 검출 방법 및 시스템의 실시예를 적용할 수 있는 예시적 시스템 구조(100)를 나타낸다.
도1에 도시된 바와 같이, 시스템 구조(100)는 단말기 장치(101, 102, 103)、네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하는 매체이다. 네트워크(104)는 유선, 무선 통신 링크 또는 광섬유 케이블 등과 같은 여러가지 연결 유형을 포함할 수 있다.
사용자는 단말기 장치(101, 102, 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터랙션을 진행하여 웹 사이트에 로그인하거나 메세지를 수신 또는 발송할 수 있다. 단말기 장치(101, 102, 103)에는 다양한 통신 클라이언트 앱이 설치될 수 있는 바, 예를 들어, 웹 브라우징 앱 또는 검색류 앱, 신문기사류 앱, 인스턴트 메시징 툴, 이메일 클라이언트 앱, 쇼셜네트워크 소프트웨어 등이 설치될 수 있다.
단말기 장치(101, 102, 103)는 정보 처리를 지원하는 각종 전자기기일 수 있으며, 스마트폰, 태블릿 PC, 전자책 단말기, MP3 플레이어(Moving Picture Experts Group Audio Layer III), MP4 (Moving Picture Experts Group Audio Layer IV) 플레이어, 랩탑형 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나, 이에 한정되는 것은 아니다.
서버(105)는 여러가지 서비스를 제공할 수 있는 서버일 수 있는 바, 예컨대, 단말기 장치(101, 102, 103)에 웹 문서 정보를 제공하는 백앤드 웹 페이지 서버일 수 있다. 백앤드 웹 페이지 서버는 인터넷 상의 웹 페이지 문서를 단말기 장치에 전송할 수도 있고, 인터넷 상의 웹 페이지 문서에 대해 정보 분석, 추출 등 처리를 진행하여 처리 결과를 단말기 장치에 전송할 수도 있다.
본 출원의 실시예에서 제공하는 정보 추출 방법은 서버(105)로 단독으로 실행하거나, 단말기 장치(101, 102, 103) 및 서버(105)로 공동으로 실행할 수 있을 뿐만 아니라, 단말기 장치(101, 102, 103)로 단독으로 실행할 수도 있음을 유의하여야 한다. 따라서, 정보 추출 장치는 단말기 장치(101, 102, 103)에 설치되거나 서버(105)에 설치될 수 있으며, 정보 추출 장치의 일부 유닛들을 서버(105)에 설치할 수도 있다.
도1 중의 단말기 장치, 네트웨크, 서버의 수량은 오직 예시적인 것일 뿐, 구현의 수요에 따라, 임의의 수량의 단말기 장치, 네트워크 및 서버가 구비될 수 있음을 이해하여야 한다.
이어서, 도2를 참조하면, 도2는 본 출원에 따른 정보 추출 방법의 일 실시예의 흐름(200)을 나타낸다. 상기 정보 추출 방법은 아래와 같은 단계들을 포함한다.
단계(201)에서, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리의 노드로부터 웹 페이지 문서에서 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별한다.
본 실시예에 있어서, 정보 추출 방법이 실행되는 전자 기기는 사전에 로컬 또는 원격으로 웹 페이지 문서를 획득할 수 있으며, 예컨대, 상기 전자 기기가 웹 페이지 서버일 경우, 로컬으로 웹 페이지 문서를 획득할 수 있으며, 상기 전자 기기가 이동 단말기일 경우, 유선 연결 방식 또는 무선 연결 방식으로 웹 페이지 서버로부터 웹 페이지 문서를 획득할 수 있다. 여기서, 상기 웹 페이지 문서는 각종 포맷의 문서일 수 있으며, 예컨대, html 포맷, xhtml 포맷, dhtml 포맷, asp 포맷, php 포맷, jsp 포맷, shtml 포맷, nsp 포맷, xml 포맷일 수 있다. 상기 전자 기기는 상기 웹 페이지 문서를 태그 트리 구조로 해석할 수 있으며, 즉, 웹 페이지 문서 중의 태그를 내포 관계에 따라 하나의 트리형 구조로 정리한다. 상기 전자 기기는 해석된 태그 트리에 대해 필터링 처리를 진행하여 웹 페이지 본문에 무관한 정보가 위치한 노드를 제거할 수 있으며, 여기서, 웹 페이지 본문에 무관한 정보는 네비게이션 정보, 저작권 고지 정보, 광고 정보 등을 포함할 수 있으나, 이에 한정되지 않는다. 상기 전자 기기는 각 노드에 포함된 내용에 따라 태그 트리의 노드로부터 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수 있으며, 예컨대, 텍스트을 포함한 글자수가 지정된 수량보다 크거나, 포함한 링크 문자가 지정된 수량보다 적은 노드를 본문 노드로 식별할 수 있다. 상기 무선 연결 방식은 3G/4G 연결, WiFi 연결, 블루투스 연결, WiMAX 연결, Zigbee 연결, UWB(ultra wideband) 연결 및 기타 이미 기존에 알려지거나 미래에 개발될 무선 연결 방식을 포함할 수 있으나, 이에 한정되지 않음을 유의하여야 한다.
본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하며, 예컨대, 오직 <title> 태그만 구비하고 대응되는 </title> 태그를 구비하지 않은 웹 페이지 문서에 </title>을 보충하며, 또한 예컨대, <li>, <hr> 등 종료 태그를 보충하고; 이어서, 규범화된 웹 페이지 문서에 대해 문서 대상 모델(DOM, Document Object Model) 트리 해석을 진행하고; 마지막으로, 생성된 태그 트리의 각 노드를 순차적으로 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정한다. 예를 들어, 태그 트리의 각 노드에 포함된 텍스트 글자수, 링크 텍스트 글자수, 문단수 및 포함한 리프(leaf) 노드 중의 텍스트수의 분산 등 통계량을 각각 통계하고, 통계량과 사전 설정된 역치에 대해 비교를 진행하여, 조건을 만족하는 노드를 본문 노드로 선택하며, 예컨대, 텍스트 글자수가 많은 노드, 링크 텍스트 글자수가 적은 노드, 문단수가 많은 노드, 포함한 리프 노드 중의 텍스트수의 분산이 큰 노드를 본문 노드로 식별한다.
단계(202)에서, 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정한다.
본 실시예에 있어서, 상기 전자 기기는 상기 적어도 하나의 본문 노드에 포함된 텍스트 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 상기 웹 페이지 문서에 대응되는 웹 페이지 본문 상의 문단을 대응시킴과 동시에, 각 문단 블록의 연관 태그의 속성(예컨대, 색상, 굵기, 링크, 숫자 목록 및 비숫자 목록 등)에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.
본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 적어도 하나의 본문 노드에 포함된 내용으로부터 웹 페이지 문서의 웹 페이지 내용의 표제를 식별할 수 있으며, 예컨대, 상기 전자 기기는 상기 웹 페이지 문서에 대응되는 웹 페이지 본문에서 각 노드에 포함된 내용이 위치한 위치 및 각 노드에 포함된 텍스트 내용에 따라, 단계(201)에서 획득한 적어도 하나의 본문 노드로부터 상기 웹 피이지 문서의 웹 페이지 내용의 표제를 식별하고; 이어서, 상기 적어도 하나의 본문 노드에 포함된 내용 중 해당 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성할 수 있다.
선택 가능하게, 상기 전자 기기는 먼저 상기 웹 페이지 내용에서 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택할 수 있으며, 예컨대, 상기 전자 기기는 웹 페이지 내용의 상부 설정된 범위 내의 텍스트 내용에 대응하는 노드를 검색하여, 검색된 노드를 후보 표제 노드로 하고; 이어서, 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제(title) 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커(anchor) 태그에 대응하는 텍스트의 편집 거리를 산출하고; 이어서, 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라, 각 후보 표제 노드에 대해 순서 배열을 진행하고, 예컨대, 편집 거리가 커지는 순서로 순서 배열을 진행하고; 마지막으로, 순서 배열의 결과에 따라, 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정할 수 있다. 선택 가능하게, 상기 전자 기기는 순서 배열 결과 및 각 후보 표제 노드에 연관 태그에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정할 수 있는 바, 예컨대, 표제 태그(H 태그), 굵게(strong) 태그 등 표제에 용이하게 나타나는 태그를 포함하고, 편집 거리가 설정치보다 작은 후보 표제 노드를 본문 표제 노드로 선택할 수도 있다.
본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 나아가 먼저 각 본문 노드 중의 적어도 하나의 블록 요소를 식별할 수 있고, 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈(br) 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득할 수 있다. 이어서, 블록 요소 및 서브 블록 요소 중 연관 태그의 속성(예컨대, 색상, 굵게, 링크, 숫자 목록 및 비숫자 목록 등)에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.
단계(203)에서, 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행한다.
본 실시예에 있어서, 상기 전자 기기는 단계(202)에서 획득한 각 문단 블록 및 각 문단 블록의 태그 속성을 기반으로, 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행할 수 있다. 예를 들어, 태그 속성이 동일한 문단 블록들을 동일한 유형으로 분류할 수 있다.
단계(204)에서, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출한다.
본 실시예에 있어서, 상기 전자 기기는 기존의 자연 언어 처리 분석 기술을 이용하여 단계(203)에서 획득한 분류 결과에 대해 분석 처리를 진행하여, 각 문단 블록에 포함된 텍스트 내용으로부터 질문을 추출할 수 있으며, 예컨대, 각 문단 블록에 포함된 텍스트 내용에 대해 단어 분할, 어의적 분석 등 일련의 처리를 진행하여, 각 문단 블록에 포함된 텍스트 내용으로부터 의문구를 추출한다. 질문을 추출한 이후, 상기 전자 기기는 상기 웹 페이지 내용에서 추출한 질문의 위치 및 각 문단 블록에 포함된 텍스트 내용에 따라 해당 질문에 대응되는 해답을 추출할 수 있다.
이어서, 도3을 참조하면, 도3은 본 실시예에 따른 정보 추출 방법의 응용 정경의 일 예시도이다. 도3의 응용 정경에 있어서, 사용자는 웹 페이지 블라우징 시 사용하는 단말기 장치를 이용하여 검색하고자 하는 해답의 질문 “전립선염의 증상”을 입력하고, 웹 페이지 서버는 사전 저장된 다수의 질문 및 해답의 정보로부터 질문 “전립선염의 증상”에 관련된 질문 및 해답을 검색하고, 검색된 질문 및 해답을 사용자에게 푸시하면, 도3에 나타낸 바와 같을 수 있다. 여기서, 사전 저장된 다수의 질문 및 해답의 정보는 아래와 같은 방식으로 획득한 것이다. 즉, 먼저, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리로부터 해당 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하고; 이어서, 텍스트 내용에 대해 문단 구분을 진행하여 문단 블록을 획득하고, 각 문단 블록의 태그 속성을 설정하고; 마지막으로, 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하고, 분류 결과에 따라 텍스트 내용으로부터 웹 페이지 내용에 포함된 질문 및 해답을 추출한다.
본 출원의 상기 실시예에서 제공하는 방법은, 웹 페이지 문서를 태그 트리로 해석하고, 식별된 본문 노드에 포함된 내용에 대해 문단 구분 및 태그 속성 설정을 진행하고, 마지막으로 웹 페이지 본문 중의 질문 및 해답을 포함하는 정보를 추출함으로써, 정보에 대한 자동적이고 정확한 추출을 실현한다.
나아가, 도4를 참조하면, 도4는 정보 추출 방법의 다른 일 실시예의 흐름(400)을 나타낸다. 해당 정보 추출 방법의 흐름(400)은 아래와 같은 단계들을 포함한다.
단계(401)에서, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리의 노드로부터 웹 페이지 문서에서 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별한다.
본 실시예에 있어서, 정보 추출 방법이 실행되는 전자 기기는 사전에 로컬 또는 원격으로 웹 페이지 문서를 획득하고, 상기 웹 페이지 문서를 태그 트리 구조로 해석할 수 있다. 이어서, 상기 전자 기기는 각 노드에 포함된 내용에 따라 진일보로 태그 트리의 노드로부터 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수도 있다.
단계(402)에서, 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정한다.
본 실시예에 있어서, 상기 전자 기기는 상기 적어도 하나의 본문 노드에 포함된 텍스트 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성함과 동시에, 각 문단 블록의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.
단계(403)에서, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분한다.
본 실시예에 있어서, 상기 전자 기기는 단계(402)에서 획득한 문단 블록 중 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분할 수 있다.
단계(404)에서, 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제(short title) 구조를 식별한다.
본 실시예에 있어서, 상기 전자 기기는 각 문단 블록 집합 내의 각 문단 블록 사이의 평균 행 간격, 최대 연속 행 간격수, 평균 문자수, 최대 문자수 등을 산출하여 역치를 설정하고, 행 간격이 일정하고 문자 길이가 균일하고 너무 크지 않은 문단 블록을 짧은 표제 구조로 식별할 수 있다.
단계(405)에서, 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제(non-short title) 구조를 가진 문단 블록에 대해 분류를 진행한다.
본 실시예에 있어서, 상기 전자 기기는 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행할 수 있으며, 예컨대, 문단 블록 내의 텍스트가 숫자를 포함하는지 여부, 문단 시작 부분에 강조적 구조가 존재하는지 여부에 따라 문단 블록을 번호 키값 유형의 문단, 키값 유형의 문단, 번호 유형의 문단 및 일반 유형 등 유형으로 구분할 수 있으며, 여기서, 상기 번호 키값 유형의 문단은 번호를 구비한 키값 유형 구조의 문단(예컨대, 1. 중심사상을 도출하는 방법: 표면을 통해 본질을 분석)을 가리킨다.
단계(406)에서, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출한다.
본 실시예에 있어서, 상기 전자 기기는 단계(405)에서 획득한 분류 결과를 기반으로, 각 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해당 질문에 대응되는 해답을 추출할 수 있다.
본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 단계(404)에서 식별한 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행할 수 있는 바, 예컨대, 식별된 짧은 표제 구조 및 해당 짧은 표제 구조와 다음 짧은 표제 구조 사이 부분을 하나의 로직 블록으로 구분할 수 있다. 이어서, 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 해당 짧은 표제를 후보 질문으로 설정한다. 다음, 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록의 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고; 마지막으로, 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출할 수 있는 바, 예컨대, 후보 질문과 후보 해답의 첫 항목 내용 사이의 행 수량이 미리 설정된 역치를 초과할 경우, 해당 후보 질문과 후보 해답을 제거하고; 후보 해답에 다수의 숫자 번호를 구비하는 내용이 포함되고 번호가 연속되지 않을 경우, 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거하며; 후보 해답에 포함된 해답 항목 수량이 미리 설정된 역치보다 작을 경우, 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거하되, 여기서, 해답 항목 수량은 해답에 포함된 항목의 수량을 가리킬 수 있으며, 각 항목은 하나의 문단을 가리킬 수도 있고 한 구절을 가리킬 수도 있으며; 후보 해답에 포함된 해답 항목 중 다수가 질문으로 판단될 경우(예컨대, 다수가 의문구로 판단될 경우), 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거할 수 있다.
도4에 도시된 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 정보 추출 방법의 흐름(400)은 각 문단 블록의 구분 및 각 블록 집합 중의 짧은 표제 구조의 식별을 강조한다. 이로써, 본 실시예에서 설명한 방안은 웹 페이지 내용 중의 질문을 더욱 정확하게 식별할 수 있으므로, 정보의 정확한 추출을 실현한다.
나아가, 도5를 참조하면, 도5는 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 정보 추출 장치의 일 실시예를 제공하며, 해당 장치 실시예는 도2에 도시된 방법 실시예에 대응되며, 해당 장치는 구체적으로 각종 전자 기기에 적용될 수 있다.
도5에 나타낸 바와 같이, 본 실시예에 설명된 정보 추출 장치(500)는 해석 유닛(501), 구분 유닛(502), 분류 유닛(503) 및 추출 유닛(504)을 포함한다. 여기서, 해석 유닛(501)은 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성되고; 구분 유닛(502)은 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하고 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성되고; 분류 유닛(503)은 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성되고; 추출 유닛(504)은 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된다.
본 실시예에 있어서, 정보 추출 장치(500)의 해석 유닛(501)은 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수 있다.
본 실시예에 있어서, 상기 구분 유닛(502)은 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.
본 실시예에 있어서, 상기 분류 유닛(503)은 상기 구분 유닛(502)으로 획득한 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행할 수 있다.
본 실시예에 있어서, 상기 추출 유닛(504)은 상기 분류 유닛(503)으로 획득한 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출할 수 있다.
상기 정보 추출 장치(500)는 기타 이미 알려진 구성, 예컨대, 프로세서, 저장 장치 등을 더 포함할 수 있으나, 본 개시의 실시예를 불필요하게 흐리는 것을 피면하기 위하여, 이러한 이미 알려진 구성은 도5에 나타내지 않음을 해당 기술 분야에서의 당업자들은 자명할 것이다.
이하, 도6은 본 출원의 실시예의 단말기 장치 또는 서버를 구현하기에 적합한 컴퓨터 시스템의 구조적 개략도를 나타낸다.
도6에 도시된 바와 같이, 컴퓨터 시스템(600)은 중앙 처리 유닛(601; CPU)을 포함하며, 읽기 전용 메모리 장치(601; ROM)에 저장된 프로그램 또는 저장부(608)로부터 랜덤 액세스 메모리 장치(603; RAM)에 로딩된 프로그램에 의해 각종 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는 시스템(600)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)을 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.
I/O 인터페이스(605)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(606)와, 예를 들어 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(607)와, 하드 드라이버 등을 포함하는 저장부(608)와, 예를 들어 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(609)가 포함된다. 통신부(609)는 인터넷과 같은 네트워크를 통해 통신처리를 실행한다. 구동부(610)도 수요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(611)는 이들 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(608)에 설치하도록 수요에 따라 구동부(610)에 설치된다.
특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 판독 가능한 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(609)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(600)로부터 설치될 수 있다.
첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 조작을 도시하였다. 이러한 방면에서, 흐름도 또는 블록도 중의 각각은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 발생할 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 기본상 동시에 실행될 수도 있고, 경우에 따라 상반된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록의 조합은 규정된 기능 또는 조작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 구현될 수 있음을 유의하여야 한다.
본 출원의 실시예에 설명되는 관련된 유닛들은 소프트웨어의 방식으로 구현되거나 하드웨어의 방식으로 구현될 수 있다. 설명된 유닛은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서는 해석 유닛, 구분 유닛, 분류 유닛 및 추출 유닛을 포함한다고 설명될 수도 있다. 여기서, 이러한 유닛들의 명칭은 일부 경우에 해당 유닛에 대한 한정이 아니므로, 예를 들어, 해석 유닛은 “사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하기 위한 유닛”으로 설명될 수도 있다.
다른, 일 방면에 있어서, 본 출원은 비휘발성 컴퓨터 저장 매체를 더 제공하며, 상기 비휘발성 컴퓨터 저장 매체는 상술한 실시예 중의 상기 장치에 포함된 비휘발성 컴퓨터 저장 매체이거나, 별개로 존재하며 단말기 장치에 설치되지 않은 비휘발성 컴퓨터 저장 매체일 수도 있다. 상기 비휘발성 컴퓨터 저장 매체는 하나 또는 다수의 프로그램을 저장하고, 하나 또는 다수의 프로그램이 하나의 장치로 실행될 경우, 상기 장치로 하여금 사전에 획득한 웹 페이지 문서를 태그 트리(tag tree) 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하고; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하며; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하며; 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 한다.
이상의 설명은 오직 본 출원의 비교적 바람직한 실시예 및 사용한 기술적 원리에 대한 설명이다. 해당 기술분야의 당업자는 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라 본 발명의 주지를 벗어나지 않고서 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들, 예를 들어, 상기 특징을 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징과 서로 대체하여 이루어진 기술적 방안도 포함하고 있음을 자명할 것이다.

Claims (16)

  1. 사전에 획득한 웹 페이지 문서를 태그 트리(tag tree) 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
    각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
    분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계는,
    상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계; 및
    상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  3. 제1항에 있어서,
    상기 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계는,
    사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하는 단계;
    규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리(Document Object Module tree) 해석을 진행하여 태그 트리를 생성하는 단계; 및
    상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  4. 제2항에 있어서,
    상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계는,
    상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하는 단계;
    각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그(anchor tag)에 대응하는 텍스트의 편집 거리를 산출하는 단계;
    각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하는 단계; 및
    순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  5. 제1항에 있어서,
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계는,
    각 본문 노드 중의 적어도 하나의 블록 요소를 식별하는 단계;
    블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈(br) 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하는 단계; 및
    블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  6. 제1항에 있어서,
    상기 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계는,
    태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하는 단계;
    각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제(short title) 구조를 식별하는 단계; 및
    포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  7. 제6항에 있어서,
    상기 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계는,
    식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하는 단계;
    정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하는 단계;
    상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하는 단계; 및
    후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
  8. 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성된 해석 유닛;
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성된 구분 유닛;
    각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성된 분류 유닛; 및
    분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된 추출 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
  9. 제8항에 있어서,
    상기 구분 유닛은,
    상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하도록 구성된 식별 서브 유닛; 및
    상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하도록 구성된 구분 서브 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
  10. 제8항에 있어서,
    상기 해석 유닛은,
    사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하고,
    규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하고,
    상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
  11. 제9항에 있어서,
    상기 식별 서브 유닛은,
    상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하고,
    각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하고,
    각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하고,
    순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
  12. 제8항에 있어서,
    상기 구분 유닛은,
    각 본문 노드 중의 적어도 하나의 블록 요소를 식별하고,
    블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고,
    블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
  13. 제8항에 있어서,
    상기 분류 유닛은,
    태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하고,
    각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하고,
    포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
  14. 제13항에 있어서,
    상기 추출 유닛은,
    식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하고,
    정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하고,
    상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고,
    후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
  15. 기기에 있어서,
    프로세서; 및
    저장 장치;를 포함하되,
    상기 저장 장치에는 상기 프로세서에 의해 실행될 수 있는 컴퓨터 판독 가능한 명령어가 저장되고, 상기 컴퓨터 판독 가능한 명령어가 실행될 경우, 상기 프로세서는 정보 추출 방법을 실행하되, 상기 정보 추출 방법은,
    사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
    각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
    분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 기기.
  16. 비 휘발성 컴퓨터 저장 매체에 있어서,
    상기 컴퓨터 저장 매체에는 프로세서로 실행할 수 있는 컴퓨터 판독 가능한 명령어가 저장되고, 상기 컴퓨터 판독 가능한 명령어가 실행될 경우, 상기 프로세서는 정보 추출 방법을 실행하되, 상기 정보 추출 방법은,
    사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
    상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
    각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
    분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 비 휘발성 컴퓨터 저장 매체.
KR1020177027765A 2015-12-30 2016-06-17 정보 추출 방법 및 장치 KR20170123331A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201511022937.X 2015-12-30
CN201511022937.XA CN105677764B (zh) 2015-12-30 2015-12-30 信息提取方法和装置
PCT/CN2016/086213 WO2017113645A1 (zh) 2015-12-30 2016-06-17 信息提取方法和装置

Publications (1)

Publication Number Publication Date
KR20170123331A true KR20170123331A (ko) 2017-11-07

Family

ID=56298057

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177027765A KR20170123331A (ko) 2015-12-30 2016-06-17 정보 추출 방법 및 장치

Country Status (6)

Country Link
US (1) US10679051B2 (ko)
EP (1) EP3267332A4 (ko)
JP (1) JP6653334B2 (ko)
KR (1) KR20170123331A (ko)
CN (1) CN105677764B (ko)
WO (1) WO2017113645A1 (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677764B (zh) 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106446072B (zh) * 2016-09-07 2019-10-18 百度在线网络技术(北京)有限公司 网页内容的处理方法和装置
CN108062291A (zh) * 2016-11-09 2018-05-22 上海颐为网络科技有限公司 多媒体内容智能转换为词条结构的方法和系统
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
KR101904486B1 (ko) * 2017-01-13 2018-10-05 (주)엠더블유스토리 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법
CN106951505B (zh) * 2017-03-16 2021-02-02 北京搜狐新媒体信息技术有限公司 网页信息获得方法及系统
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN108509469A (zh) * 2017-05-17 2018-09-07 苏州纯青智能科技有限公司 一种基于分块的网页正文信息提取方法
CN107766328B (zh) * 2017-10-24 2020-06-12 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN107943838B (zh) * 2017-10-30 2021-09-07 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110209906A (zh) * 2018-02-07 2019-09-06 北京京东尚科信息技术有限公司 用于提取网页信息的方法和装置
CN108334481B (zh) * 2018-03-01 2021-08-27 四川语言桥信息技术有限公司 文档处理方法以及装置
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
CN108491536A (zh) * 2018-03-30 2018-09-04 北京智慧正安科技有限公司 法律条文提取方法、装置及计算机可读存储介质
CN109276886B (zh) * 2018-08-16 2022-09-23 深圳木狼科技有限公司 一种文本生成方法、系统以及终端设备
CN110889280B (zh) * 2018-09-06 2023-09-26 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
US10713329B2 (en) 2018-10-30 2020-07-14 Longsand Limited Deriving links to online resources based on implicit references
CN109740130B (zh) * 2018-11-22 2022-12-09 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN109635103B (zh) * 2018-12-17 2022-05-20 北京百度网讯科技有限公司 摘要生成方法和装置
CN110175233B (zh) * 2019-03-07 2022-03-11 平安科技(深圳)有限公司 目标主体画像分析的方法、装置、计算机装置及存储介质
JP7099397B2 (ja) * 2019-04-16 2022-07-12 株式会社リコー Q&a抽出装置、方法、プログラム、および応答システム
CN110046355B (zh) * 2019-04-25 2023-02-24 讯飞智元信息科技有限公司 一种标题段落检测方法及装置
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110222319A (zh) * 2019-06-19 2019-09-10 北京百度网讯科技有限公司 用于挖掘数据的方法和装置
CN110427488B (zh) * 2019-07-30 2022-09-23 北京明略软件系统有限公司 文档的处理方法及装置
CN110704573B (zh) * 2019-09-04 2023-12-22 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质
CN110569361B (zh) * 2019-09-06 2021-10-19 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110717044A (zh) * 2019-10-08 2020-01-21 创新奇智(南京)科技有限公司 一种研报正文的文本分类方法
CN111177301B (zh) * 2019-11-26 2023-05-26 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111061860A (zh) * 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
CN113051390B (zh) * 2019-12-26 2023-09-26 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN111274239B (zh) * 2019-12-30 2023-07-14 安徽知学科技有限公司 试卷结构化处理方法、装置和设备
CN111784505A (zh) * 2020-06-30 2020-10-16 鼎富智能科技有限公司 一种借贷纠纷判决书提取方法及装置
CN112001183B (zh) * 2020-07-26 2021-11-19 湖南省侍禾教育科技有限公司 一种基于段落语义的中小学试题分割提取方法及系统
CN114070576B (zh) * 2020-08-07 2024-03-08 腾讯科技(深圳)有限公司 内容显示方法、内容生成方法、装置、设备及存储介质
CN112172375B (zh) * 2020-09-03 2021-11-30 安徽理工大学 一种大学生创新创业计划评价分析系统
CN112084753B (zh) * 2020-09-14 2021-06-29 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统
CN112487138A (zh) * 2020-11-19 2021-03-12 华为技术有限公司 带格式文本的信息抽取方法和装置
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN113407890B (zh) * 2021-07-19 2024-01-12 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质
CN113591657B (zh) * 2021-07-23 2024-04-09 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN114610985B (zh) * 2022-05-10 2022-08-19 北京百炼智能科技有限公司 信息提取方法、装置、电子设备及存储介质
CN115757823B (zh) * 2022-11-10 2024-03-05 魔方医药科技(苏州)有限公司 数据处理方法、装置、电子设备和存储介质
CN117236314B (zh) * 2023-11-06 2024-03-01 杭州同花顺数据开发有限公司 支持超长答案的信息抽取方法、系统、装置和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113335A (ja) * 1997-06-13 1999-01-06 Fuji Xerox Co Ltd 質問回答管理装置
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
WO2001052462A2 (en) 2000-01-12 2001-07-19 Jupiter Media Metrix, Inc. System and method for estimating prevalence of digital content on the world-wide-web
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
JP4512826B2 (ja) * 2005-03-03 2010-07-28 国立大学法人 筑波大学 質問応答システム
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
TW200836075A (en) * 2007-02-16 2008-09-01 Esobi Inc Method of converting hypertext markup language web page into pure text and system thereof
US20090119374A1 (en) * 2007-11-05 2009-05-07 International Business Machines Corporation Adaptive instant messaging awareness
US8255793B2 (en) 2008-01-08 2012-08-28 Yahoo! Inc. Automatic visual segmentation of webpages
US20110213655A1 (en) 2009-01-24 2011-09-01 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
JP2011003182A (ja) * 2009-05-19 2011-01-06 Studio Ousia Inc キーワード表示方法およびそのシステム
US9798800B2 (en) * 2010-09-24 2017-10-24 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US20130304730A1 (en) * 2011-01-18 2013-11-14 Google Inc. Automated answers to online questions
CN102651002B (zh) * 2011-02-28 2017-08-11 深圳市世纪光速信息技术有限公司 一种网页信息抽取方法及其系统
CN102631002B (zh) * 2012-05-15 2013-06-05 安徽燕之坊食品有限公司 一种功能性饮料冲剂
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
US9246857B2 (en) * 2013-12-23 2016-01-26 Ctext Technology Llc Method and system for correlating conversations in a messaging environment
CN103853834B (zh) * 2014-03-12 2017-02-08 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
CN104268192B (zh) * 2014-09-20 2018-08-07 广州猎豹网络科技有限公司 一种网页信息提取方法、装置及终端
CN104462532B (zh) 2014-12-23 2017-07-07 北京奇虎科技有限公司 网页正文提取的方法和装置
US9875296B2 (en) * 2015-03-25 2018-01-23 Google Llc Information extraction from question and answer websites
US20170063776A1 (en) * 2015-08-27 2017-03-02 International Business Machines Coporation FAQs UPDATER AND GENERATOR FOR MULTI-COMMUNICATION CHANNELS
CN105677764B (zh) 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置

Also Published As

Publication number Publication date
US20180322341A1 (en) 2018-11-08
EP3267332A4 (en) 2018-01-24
EP3267332A1 (en) 2018-01-10
US10679051B2 (en) 2020-06-09
CN105677764A (zh) 2016-06-15
JP2018513480A (ja) 2018-05-24
CN105677764B (zh) 2020-05-08
WO2017113645A1 (zh) 2017-07-06
JP6653334B2 (ja) 2020-02-26

Similar Documents

Publication Publication Date Title
KR20170123331A (ko) 정보 추출 방법 및 장치
US11769072B2 (en) Document structure extraction using machine learning
US7783642B1 (en) System and method of identifying web page semantic structures
US20150067476A1 (en) Title and body extraction from web page
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
US11727196B2 (en) System and method for automatic detection of webpage zones of interest
US20130339840A1 (en) System and method for logical chunking and restructuring websites
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN107153716B (zh) 网页内容提取方法和装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN111339250A (zh) 新类别标签的挖掘方法及电子设备、计算机可读介质
US20190392209A1 (en) Document Analyzer, Document Analysis Method, and Computer-Readable Storage Medium Storing Program
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN111199151A (zh) 数据处理方法、及数据处理装置
CN111143642A (zh) 网页分类方法、装置、电子设备及计算机可读存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
JP2020173779A (ja) 文書における見出しのシーケンスの識別
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN106649767B (zh) 一种网页信息抽取方法及装置
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN114860867A (zh) 训练文档信息抽取模型、文档信息抽取的方法和装置
CN109388665B (zh) 作者关系在线挖掘方法及系统
CN113407678A (zh) 知识图谱构建方法、装置和设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment