KR20170123331A

KR20170123331A - 정보 추출 방법 및 장치

Info

Publication number: KR20170123331A
Application number: KR1020177027765A
Authority: KR
Inventors: 쇼우케 친; 요우 한; 쯔양 첸; 페이차오 마; 페이쯔 쉬
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2015-12-30
Filing date: 2016-06-17
Publication date: 2017-11-07
Also published as: US20180322341A1; EP3267332A4; EP3267332A1; US10679051B2; CN105677764A; JP2018513480A; CN105677764B; WO2017113645A1; JP6653334B2

Abstract

본 출원은 정보 추출 방법 및 장치를 개시한다. 상기 방법의 일 구체적인 실시예는, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함한다. 해당 실시예는 정보에 대해 자동적이며 정확한 추출을 실현한다.

Description

정보 추출 방법 및 장치

본 출원은 2015년 12월 30일에 제출한 제201511022937.X호 중국 특허 출원의 우선권을 주장하는 바, 상기 출원의 모든 내용은 참조로서 본 출원에 원용된다.

본 출원은 컴퓨터 기술 분야에 관한 것으로, 더 상세하게 정보 기술 분야, 특히는 정보 추출 방법 및 장치에 관한 것이다.

인터넷 기술이 왕성하게 발전함에 따라, 인터넷 상의 정보 자원들이 갈수록 풍부해지고 있다. 한편, 검색 엔진은 네트웨크 사용자들이 인터넷 상에서 요구하는 정보를 신속하게 찾을 수 있도록 상당한 편의성을 제공한다. 다른 한편, 인터넷 상의 자원이 증가하고 검색 엔진에 사용자 행위 데이터가 누적됨에 따라, 검색 엔진은 자동 문답을 제공하는 기능을 구비하게 되었다. 전통적인 검색 엔진에 비해, 자동 문답 시스템의 검색 결과는 더이상 순서 배열된 웹 페이지 목록에만 그치는 것이 아니라, 관련 웹페이지로부터 직접 추출한 해답이며, 사용자는 더이상 시간을 소모하여 웹페이지로부터 해답을 찾을 필요가 없으므로, 사용자의 시간을 절약한다.

자동 문답 시스템으로 색인된 내용이 웹페이지 전체의 내용이 아니라, 웹 페이지 내용에 문답을 포함한 한 단락 또는 여러 구절의 문장이며, 인터넷 상에 자연적으로 존재하는 질문 및 질문의 해답에 대한 자원이 상대적으로 결핍하므로, 웹페이지 내용으로부터 질문 및 질문의 해답에 대한 정보를 추출하는 것이 요구되고 있다.

본 출원은 상기 배경 기술 부분에서 제시된 기술적 문제를 해결하기 위해 안출된 것으로, 개선된 정보 추출 방법 및 장치를 제공하는데 그 목적이 있다.

제1 양태에 있어서, 본 출원은 정보 추출 방법을 제공하며, 상기 방법은, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계는, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계; 및 상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계는, 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하는 단계; 규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하는 단계; 및 상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계는, 상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하는 단계; 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하는 단계; 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하는 단계; 및 순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계는, 각 본문 노드 중의 적어도 하나의 블록 요소를 식별하는 단계; 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하는 단계; 및 블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계는, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하는 단계; 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하는 단계; 및 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하는 단계;를 포함한다.

일부 실시예에 있어서, 상기 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계는, 식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하는 단계; 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하는 단계; 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하는 단계; 및 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하는 단계를 포함한다.

제2 양태에 있어서, 본 출원은 정보 추출 장치를 제공하며, 상기 장치는, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성된 해석 유닛; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성된 구분 유닛; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성된 분류 유닛; 및 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된 추출 유닛;을 포함한다.

일부 실시예에 있어서, 상기 구분 유닛은, 상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하도록 구성된 식별 서브 유닛; 및 상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하도록 구성된 구분 서브 유닛;을 포함한다.

일부 실시예에 있어서, 상기 해석 유닛은, 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하고, 규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하고, 상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하도록 더 구성된다.

일부 실시예에 있어서, 상기 식별 서브 유닛은, 상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하고, 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하고, 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하고, 순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하도록 더 구성된다.

일부 실시예에 있어서, 상기 구분 유닛은, 각 본문 노드 중의 적어도 하나의 블록 요소를 식별하고, 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 더 구성된다.

일부 실시예에 있어서, 상기 분류 유닛은, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하고, 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하고, 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하도록 더 구성된다.

일부 실시예에 있어서, 상기 추출 유닛은, 식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하고, 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하고, 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고, 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하도록 더 구성된다.

본 출원에서 제공하는 정보 추출 방법 및 장치는, 웹 페이지 문서를 태그 트리 구조로 해석한 다음, 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 문단 블록을 생성하고, 마지막으로 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하고, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출함으로써, 정보의 자동적이고 정확한 추출을 실현한다.

이하 첨부된 도면들을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터, 본 발명의 기타 특징, 목적 및 장점들은 더욱 명확해 질 것이다.
도 1은 본 출원이 적용될 수 있는 예씨적인 시스템 체계구조도이다.
도 2는 본 출원의 정보 추출 방법에 따른 일 실시예의 흐름도이다.
도 3은 본 출원의 정보 추출 방법에 따른 일 응용정경의 예시도이다.
도 4는 본 출원의 정보 추출 방법에 따른 다른 일 실시예의 흐름도이다.
도 5는 본 출원의 정보 추출 장치에 따른 일 시시예의 구조적 개략도이다.
도 6은 본 출원의 실시예의 단말기 장치 및 서버를 실현하기에 적합한 컴퓨터 시스템의 구조적 개략도이다.

이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.

본 발명의 실시예 및 실시예의 특징들은 서로 모순되지 않는 한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.

도1은 본 출원의 피싱 웹 페이지 검출 방법 및 시스템의 실시예를 적용할 수 있는 예시적 시스템 구조(100)를 나타낸다.

도1에 도시된 바와 같이, 시스템 구조(100)는 단말기 장치(101, 102, 103)、네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하는 매체이다. 네트워크(104)는 유선, 무선 통신 링크 또는 광섬유 케이블 등과 같은 여러가지 연결 유형을 포함할 수 있다.

사용자는 단말기 장치(101, 102, 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터랙션을 진행하여 웹 사이트에 로그인하거나 메세지를 수신 또는 발송할 수 있다. 단말기 장치(101, 102, 103)에는 다양한 통신 클라이언트 앱이 설치될 수 있는 바, 예를 들어, 웹 브라우징 앱 또는 검색류 앱, 신문기사류 앱, 인스턴트 메시징 툴, 이메일 클라이언트 앱, 쇼셜네트워크 소프트웨어 등이 설치될 수 있다.

단말기 장치(101, 102, 103)는 정보 처리를 지원하는 각종 전자기기일 수 있으며, 스마트폰, 태블릿 PC, 전자책 단말기, MP3 플레이어(Moving Picture Experts Group Audio Layer III), MP4 (Moving Picture Experts Group Audio Layer IV) 플레이어, 랩탑형 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나, 이에 한정되는 것은 아니다.

서버(105)는 여러가지 서비스를 제공할 수 있는 서버일 수 있는 바, 예컨대, 단말기 장치(101, 102, 103)에 웹 문서 정보를 제공하는 백앤드 웹 페이지 서버일 수 있다. 백앤드 웹 페이지 서버는 인터넷 상의 웹 페이지 문서를 단말기 장치에 전송할 수도 있고, 인터넷 상의 웹 페이지 문서에 대해 정보 분석, 추출 등 처리를 진행하여 처리 결과를 단말기 장치에 전송할 수도 있다.

본 출원의 실시예에서 제공하는 정보 추출 방법은 서버(105)로 단독으로 실행하거나, 단말기 장치(101, 102, 103) 및 서버(105)로 공동으로 실행할 수 있을 뿐만 아니라, 단말기 장치(101, 102, 103)로 단독으로 실행할 수도 있음을 유의하여야 한다. 따라서, 정보 추출 장치는 단말기 장치(101, 102, 103)에 설치되거나 서버(105)에 설치될 수 있으며, 정보 추출 장치의 일부 유닛들을 서버(105)에 설치할 수도 있다.

도1 중의 단말기 장치, 네트웨크, 서버의 수량은 오직 예시적인 것일 뿐, 구현의 수요에 따라, 임의의 수량의 단말기 장치, 네트워크 및 서버가 구비될 수 있음을 이해하여야 한다.

이어서, 도2를 참조하면, 도2는 본 출원에 따른 정보 추출 방법의 일 실시예의 흐름(200)을 나타낸다. 상기 정보 추출 방법은 아래와 같은 단계들을 포함한다.

단계(201)에서, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리의 노드로부터 웹 페이지 문서에서 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별한다.

본 실시예에 있어서, 정보 추출 방법이 실행되는 전자 기기는 사전에 로컬 또는 원격으로 웹 페이지 문서를 획득할 수 있으며, 예컨대, 상기 전자 기기가 웹 페이지 서버일 경우, 로컬으로 웹 페이지 문서를 획득할 수 있으며, 상기 전자 기기가 이동 단말기일 경우, 유선 연결 방식 또는 무선 연결 방식으로 웹 페이지 서버로부터 웹 페이지 문서를 획득할 수 있다. 여기서, 상기 웹 페이지 문서는 각종 포맷의 문서일 수 있으며, 예컨대, html 포맷, xhtml 포맷, dhtml 포맷, asp 포맷, php 포맷, jsp 포맷, shtml 포맷, nsp 포맷, xml 포맷일 수 있다. 상기 전자 기기는 상기 웹 페이지 문서를 태그 트리 구조로 해석할 수 있으며, 즉, 웹 페이지 문서 중의 태그를 내포 관계에 따라 하나의 트리형 구조로 정리한다. 상기 전자 기기는 해석된 태그 트리에 대해 필터링 처리를 진행하여 웹 페이지 본문에 무관한 정보가 위치한 노드를 제거할 수 있으며, 여기서, 웹 페이지 본문에 무관한 정보는 네비게이션 정보, 저작권 고지 정보, 광고 정보 등을 포함할 수 있으나, 이에 한정되지 않는다. 상기 전자 기기는 각 노드에 포함된 내용에 따라 태그 트리의 노드로부터 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수 있으며, 예컨대, 텍스트을 포함한 글자수가 지정된 수량보다 크거나, 포함한 링크 문자가 지정된 수량보다 적은 노드를 본문 노드로 식별할 수 있다. 상기 무선 연결 방식은 3G/4G 연결, WiFi 연결, 블루투스 연결, WiMAX 연결, Zigbee 연결, UWB(ultra wideband) 연결 및 기타 이미 기존에 알려지거나 미래에 개발될 무선 연결 방식을 포함할 수 있으나, 이에 한정되지 않음을 유의하여야 한다.

본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하며, 예컨대, 오직 <title> 태그만 구비하고 대응되는 </title> 태그를 구비하지 않은 웹 페이지 문서에 </title>을 보충하며, 또한 예컨대, <li>, <hr> 등 종료 태그를 보충하고; 이어서, 규범화된 웹 페이지 문서에 대해 문서 대상 모델(DOM, Document Object Model) 트리 해석을 진행하고; 마지막으로, 생성된 태그 트리의 각 노드를 순차적으로 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정한다. 예를 들어, 태그 트리의 각 노드에 포함된 텍스트 글자수, 링크 텍스트 글자수, 문단수 및 포함한 리프(leaf) 노드 중의 텍스트수의 분산 등 통계량을 각각 통계하고, 통계량과 사전 설정된 역치에 대해 비교를 진행하여, 조건을 만족하는 노드를 본문 노드로 선택하며, 예컨대, 텍스트 글자수가 많은 노드, 링크 텍스트 글자수가 적은 노드, 문단수가 많은 노드, 포함한 리프 노드 중의 텍스트수의 분산이 큰 노드를 본문 노드로 식별한다.

단계(202)에서, 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정한다.

본 실시예에 있어서, 상기 전자 기기는 상기 적어도 하나의 본문 노드에 포함된 텍스트 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 상기 웹 페이지 문서에 대응되는 웹 페이지 본문 상의 문단을 대응시킴과 동시에, 각 문단 블록의 연관 태그의 속성(예컨대, 색상, 굵기, 링크, 숫자 목록 및 비숫자 목록 등)에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.

본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 적어도 하나의 본문 노드에 포함된 내용으로부터 웹 페이지 문서의 웹 페이지 내용의 표제를 식별할 수 있으며, 예컨대, 상기 전자 기기는 상기 웹 페이지 문서에 대응되는 웹 페이지 본문에서 각 노드에 포함된 내용이 위치한 위치 및 각 노드에 포함된 텍스트 내용에 따라, 단계(201)에서 획득한 적어도 하나의 본문 노드로부터 상기 웹 피이지 문서의 웹 페이지 내용의 표제를 식별하고; 이어서, 상기 적어도 하나의 본문 노드에 포함된 내용 중 해당 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성할 수 있다.

선택 가능하게, 상기 전자 기기는 먼저 상기 웹 페이지 내용에서 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택할 수 있으며, 예컨대, 상기 전자 기기는 웹 페이지 내용의 상부 설정된 범위 내의 텍스트 내용에 대응하는 노드를 검색하여, 검색된 노드를 후보 표제 노드로 하고; 이어서, 각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제(title) 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커(anchor) 태그에 대응하는 텍스트의 편집 거리를 산출하고; 이어서, 각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라, 각 후보 표제 노드에 대해 순서 배열을 진행하고, 예컨대, 편집 거리가 커지는 순서로 순서 배열을 진행하고; 마지막으로, 순서 배열의 결과에 따라, 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정할 수 있다. 선택 가능하게, 상기 전자 기기는 순서 배열 결과 및 각 후보 표제 노드에 연관 태그에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정할 수 있는 바, 예컨대, 표제 태그(H 태그), 굵게(strong) 태그 등 표제에 용이하게 나타나는 태그를 포함하고, 편집 거리가 설정치보다 작은 후보 표제 노드를 본문 표제 노드로 선택할 수도 있다.

본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 나아가 먼저 각 본문 노드 중의 적어도 하나의 블록 요소를 식별할 수 있고, 블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈(br) 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득할 수 있다. 이어서, 블록 요소 및 서브 블록 요소 중 연관 태그의 속성(예컨대, 색상, 굵게, 링크, 숫자 목록 및 비숫자 목록 등)에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.

단계(203)에서, 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행한다.

본 실시예에 있어서, 상기 전자 기기는 단계(202)에서 획득한 각 문단 블록 및 각 문단 블록의 태그 속성을 기반으로, 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행할 수 있다. 예를 들어, 태그 속성이 동일한 문단 블록들을 동일한 유형으로 분류할 수 있다.

단계(204)에서, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출한다.

본 실시예에 있어서, 상기 전자 기기는 기존의 자연 언어 처리 분석 기술을 이용하여 단계(203)에서 획득한 분류 결과에 대해 분석 처리를 진행하여, 각 문단 블록에 포함된 텍스트 내용으로부터 질문을 추출할 수 있으며, 예컨대, 각 문단 블록에 포함된 텍스트 내용에 대해 단어 분할, 어의적 분석 등 일련의 처리를 진행하여, 각 문단 블록에 포함된 텍스트 내용으로부터 의문구를 추출한다. 질문을 추출한 이후, 상기 전자 기기는 상기 웹 페이지 내용에서 추출한 질문의 위치 및 각 문단 블록에 포함된 텍스트 내용에 따라 해당 질문에 대응되는 해답을 추출할 수 있다.

이어서, 도3을 참조하면, 도3은 본 실시예에 따른 정보 추출 방법의 응용 정경의 일 예시도이다. 도3의 응용 정경에 있어서, 사용자는 웹 페이지 블라우징 시 사용하는 단말기 장치를 이용하여 검색하고자 하는 해답의 질문 “전립선염의 증상”을 입력하고, 웹 페이지 서버는 사전 저장된 다수의 질문 및 해답의 정보로부터 질문 “전립선염의 증상”에 관련된 질문 및 해답을 검색하고, 검색된 질문 및 해답을 사용자에게 푸시하면, 도3에 나타낸 바와 같을 수 있다. 여기서, 사전 저장된 다수의 질문 및 해답의 정보는 아래와 같은 방식으로 획득한 것이다. 즉, 먼저, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리로부터 해당 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하고; 이어서, 텍스트 내용에 대해 문단 구분을 진행하여 문단 블록을 획득하고, 각 문단 블록의 태그 속성을 설정하고; 마지막으로, 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하고, 분류 결과에 따라 텍스트 내용으로부터 웹 페이지 내용에 포함된 질문 및 해답을 추출한다.

본 출원의 상기 실시예에서 제공하는 방법은, 웹 페이지 문서를 태그 트리로 해석하고, 식별된 본문 노드에 포함된 내용에 대해 문단 구분 및 태그 속성 설정을 진행하고, 마지막으로 웹 페이지 본문 중의 질문 및 해답을 포함하는 정보를 추출함으로써, 정보에 대한 자동적이고 정확한 추출을 실현한다.

나아가, 도4를 참조하면, 도4는 정보 추출 방법의 다른 일 실시예의 흐름(400)을 나타낸다. 해당 정보 추출 방법의 흐름(400)은 아래와 같은 단계들을 포함한다.

단계(401)에서, 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 태그 트리의 노드로부터 웹 페이지 문서에서 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별한다.

본 실시예에 있어서, 정보 추출 방법이 실행되는 전자 기기는 사전에 로컬 또는 원격으로 웹 페이지 문서를 획득하고, 상기 웹 페이지 문서를 태그 트리 구조로 해석할 수 있다. 이어서, 상기 전자 기기는 각 노드에 포함된 내용에 따라 진일보로 태그 트리의 노드로부터 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수도 있다.

단계(402)에서, 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정한다.

본 실시예에 있어서, 상기 전자 기기는 상기 적어도 하나의 본문 노드에 포함된 텍스트 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성함과 동시에, 각 문단 블록의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.

단계(403)에서, 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분한다.

본 실시예에 있어서, 상기 전자 기기는 단계(402)에서 획득한 문단 블록 중 태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분할 수 있다.

단계(404)에서, 각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제(short title) 구조를 식별한다.

본 실시예에 있어서, 상기 전자 기기는 각 문단 블록 집합 내의 각 문단 블록 사이의 평균 행 간격, 최대 연속 행 간격수, 평균 문자수, 최대 문자수 등을 산출하여 역치를 설정하고, 행 간격이 일정하고 문자 길이가 균일하고 너무 크지 않은 문단 블록을 짧은 표제 구조로 식별할 수 있다.

단계(405)에서, 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제(non-short title) 구조를 가진 문단 블록에 대해 분류를 진행한다.

본 실시예에 있어서, 상기 전자 기기는 포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행할 수 있으며, 예컨대, 문단 블록 내의 텍스트가 숫자를 포함하는지 여부, 문단 시작 부분에 강조적 구조가 존재하는지 여부에 따라 문단 블록을 번호 키값 유형의 문단, 키값 유형의 문단, 번호 유형의 문단 및 일반 유형 등 유형으로 구분할 수 있으며, 여기서, 상기 번호 키값 유형의 문단은 번호를 구비한 키값 유형 구조의 문단(예컨대, 1. 중심사상을 도출하는 방법: 표면을 통해 본질을 분석)을 가리킨다.

단계(406)에서, 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출한다.

본 실시예에 있어서, 상기 전자 기기는 단계(405)에서 획득한 분류 결과를 기반으로, 각 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해당 질문에 대응되는 해답을 추출할 수 있다.

본 실시예 중의 일부 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 먼저 단계(404)에서 식별한 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행할 수 있는 바, 예컨대, 식별된 짧은 표제 구조 및 해당 짧은 표제 구조와 다음 짧은 표제 구조 사이 부분을 하나의 로직 블록으로 구분할 수 있다. 이어서, 정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 해당 짧은 표제를 후보 질문으로 설정한다. 다음, 상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록의 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고; 마지막으로, 후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출할 수 있는 바, 예컨대, 후보 질문과 후보 해답의 첫 항목 내용 사이의 행 수량이 미리 설정된 역치를 초과할 경우, 해당 후보 질문과 후보 해답을 제거하고; 후보 해답에 다수의 숫자 번호를 구비하는 내용이 포함되고 번호가 연속되지 않을 경우, 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거하며; 후보 해답에 포함된 해답 항목 수량이 미리 설정된 역치보다 작을 경우, 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거하되, 여기서, 해답 항목 수량은 해답에 포함된 항목의 수량을 가리킬 수 있으며, 각 항목은 하나의 문단을 가리킬 수도 있고 한 구절을 가리킬 수도 있으며; 후보 해답에 포함된 해답 항목 중 다수가 질문으로 판단될 경우(예컨대, 다수가 의문구로 판단될 경우), 해당 후보 해답 및 해당 후보 해답에 대응되는 후보 질문을 제거할 수 있다.

도4에 도시된 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 정보 추출 방법의 흐름(400)은 각 문단 블록의 구분 및 각 블록 집합 중의 짧은 표제 구조의 식별을 강조한다. 이로써, 본 실시예에서 설명한 방안은 웹 페이지 내용 중의 질문을 더욱 정확하게 식별할 수 있으므로, 정보의 정확한 추출을 실현한다.

나아가, 도5를 참조하면, 도5는 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 정보 추출 장치의 일 실시예를 제공하며, 해당 장치 실시예는 도2에 도시된 방법 실시예에 대응되며, 해당 장치는 구체적으로 각종 전자 기기에 적용될 수 있다.

도5에 나타낸 바와 같이, 본 실시예에 설명된 정보 추출 장치(500)는 해석 유닛(501), 구분 유닛(502), 분류 유닛(503) 및 추출 유닛(504)을 포함한다. 여기서, 해석 유닛(501)은 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성되고; 구분 유닛(502)은 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하고 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성되고; 분류 유닛(503)은 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성되고; 추출 유닛(504)은 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된다.

본 실시예에 있어서, 정보 추출 장치(500)의 해석 유닛(501)은 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별할 수 있다.

본 실시예에 있어서, 상기 구분 유닛(502)은 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정할 수 있다.

본 실시예에 있어서, 상기 분류 유닛(503)은 상기 구분 유닛(502)으로 획득한 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행할 수 있다.

본 실시예에 있어서, 상기 추출 유닛(504)은 상기 분류 유닛(503)으로 획득한 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출할 수 있다.

상기 정보 추출 장치(500)는 기타 이미 알려진 구성, 예컨대, 프로세서, 저장 장치 등을 더 포함할 수 있으나, 본 개시의 실시예를 불필요하게 흐리는 것을 피면하기 위하여, 이러한 이미 알려진 구성은 도5에 나타내지 않음을 해당 기술 분야에서의 당업자들은 자명할 것이다.

이하, 도6은 본 출원의 실시예의 단말기 장치 또는 서버를 구현하기에 적합한 컴퓨터 시스템의 구조적 개략도를 나타낸다.

도6에 도시된 바와 같이, 컴퓨터 시스템(600)은 중앙 처리 유닛(601; CPU)을 포함하며, 읽기 전용 메모리 장치(601; ROM)에 저장된 프로그램 또는 저장부(608)로부터 랜덤 액세스 메모리 장치(603; RAM)에 로딩된 프로그램에 의해 각종 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는 시스템(600)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)을 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.

I/O 인터페이스(605)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(606)와, 예를 들어 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(607)와, 하드 드라이버 등을 포함하는 저장부(608)와, 예를 들어 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(609)가 포함된다. 통신부(609)는 인터넷과 같은 네트워크를 통해 통신처리를 실행한다. 구동부(610)도 수요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(611)는 이들 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(608)에 설치하도록 수요에 따라 구동부(610)에 설치된다.

특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 판독 가능한 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(609)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(600)로부터 설치될 수 있다.

첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 조작을 도시하였다. 이러한 방면에서, 흐름도 또는 블록도 중의 각각은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 발생할 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 기본상 동시에 실행될 수도 있고, 경우에 따라 상반된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록의 조합은 규정된 기능 또는 조작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 구현될 수 있음을 유의하여야 한다.

본 출원의 실시예에 설명되는 관련된 유닛들은 소프트웨어의 방식으로 구현되거나 하드웨어의 방식으로 구현될 수 있다. 설명된 유닛은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서는 해석 유닛, 구분 유닛, 분류 유닛 및 추출 유닛을 포함한다고 설명될 수도 있다. 여기서, 이러한 유닛들의 명칭은 일부 경우에 해당 유닛에 대한 한정이 아니므로, 예를 들어, 해석 유닛은 “사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하기 위한 유닛”으로 설명될 수도 있다.

다른, 일 방면에 있어서, 본 출원은 비휘발성 컴퓨터 저장 매체를 더 제공하며, 상기 비휘발성 컴퓨터 저장 매체는 상술한 실시예 중의 상기 장치에 포함된 비휘발성 컴퓨터 저장 매체이거나, 별개로 존재하며 단말기 장치에 설치되지 않은 비휘발성 컴퓨터 저장 매체일 수도 있다. 상기 비휘발성 컴퓨터 저장 매체는 하나 또는 다수의 프로그램을 저장하고, 하나 또는 다수의 프로그램이 하나의 장치로 실행될 경우, 상기 장치로 하여금 사전에 획득한 웹 페이지 문서를 태그 트리(tag tree) 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하고; 상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하며; 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하며; 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 한다.

이상의 설명은 오직 본 출원의 비교적 바람직한 실시예 및 사용한 기술적 원리에 대한 설명이다. 해당 기술분야의 당업자는 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라 본 발명의 주지를 벗어나지 않고서 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들, 예를 들어, 상기 특징을 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징과 서로 대체하여 이루어진 기술적 방안도 포함하고 있음을 자명할 것이다.

Claims

사전에 획득한 웹 페이지 문서를 태그 트리(tag tree) 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계는,
상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계; 및
상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계는,
사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하는 단계;
규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리(Document Object Module tree) 해석을 진행하여 태그 트리를 생성하는 단계; 및
상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제2항에 있어서,
상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하는 단계는,
상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하는 단계;
각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그(anchor tag)에 대응하는 텍스트의 편집 거리를 산출하는 단계;
각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하는 단계; 및
순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계는,
각 본문 노드 중의 적어도 하나의 블록 요소를 식별하는 단계;
블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈(br) 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고; 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하는 단계; 및
블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계는,
태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하는 단계;
각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제(short title) 구조를 식별하는 단계; 및
포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
제6항에 있어서,
상기 분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계는,
식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하는 단계;
정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하는 단계;
상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하는 단계; 및
후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 정보 추출 방법.
사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하도록 구성된 해석 유닛;
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 구성된 구분 유닛;
각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하도록 구성된 분류 유닛; 및
분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하도록 구성된 추출 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
제8항에 있어서,
상기 구분 유닛은,
상기 적어도 하나의 본문 노드에 포함된 내용으로부터 상기 웹 페이지 문서의 웹 페이지 내용의 표제를 식별하도록 구성된 식별 서브 유닛; 및
상기 적어도 하나의 본문 노드에 포함된 내용 중 상기 표제 이외의 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하도록 구성된 구분 서브 유닛;을 포함하는 것을 특징으로 하는 정보 추출 장치.
제8항에 있어서,
상기 해석 유닛은,
사전에 획득한 웹 페이지 문서에 대해 규범화 처리를 진행하여 상기 웹 페이지 문서가 하이퍼텍스트 마크업언어 규범에 부합하도록 하고,
규범화된 웹 페이지 문서에 대해 문서 대상 모델 트리 해석을 진행하여 태그 트리를 생성하고,
상기 태그 트리의 각 노드를 방문하여 각 노드에 포함된 내용에 따라 본문 노드를 확정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
제9항에 있어서,
상기 식별 서브 유닛은,
상기 웹 페이지 내용에서 상기 적어도 하나의 본문 노드에 포함된 내용의 위치에 따라, 상기 적어도 하나의 본문 노드로부터 적어도 하나의 후보 표제 노드를 선택하고,
각 후보 표제 노드 내의 텍스트와 상기 웹 페이지 문서의 표제 태그에 대응하는 텍스트의 편집 거리 및 각 후보 표제 노드 내의 텍스트와 앵커 태그에 대응하는 텍스트의 편집 거리를 산출하고,
각 후보 표제 노드 내의 태그 정보 및 산출된 편집 거리에 따라 각 후보 표제 노드에 대해 순서 배열을 진행하고,
순서 배열 결과에 따라 상기 적어도 하나의 후보 표제 노드로부터 하나의 본문 표제 노드를 확정하고, 상기 본문 표제 노드 내의 텍스트를 웹 페이지 내용의 표제로 확정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
제8항에 있어서,
상기 구분 유닛은,
각 본문 노드 중의 적어도 하나의 블록 요소를 식별하고,
블록 요소에 서브 블록 요소가 포함될 경우, 서브 블록 요소 및 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고, 블록 요소에 서브 블록 요소가 포함되지 않을 경우, 행 바꿈 태그를 이용하여 본문 노드에 포함된 텍스트에 대해 문단 구분을 진행하여 적어도 하나의 문단 블록을 획득하고,
블록 요소 및 서브 블록 요소의 연관 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
제8항에 있어서,
상기 분류 유닛은,
태그 속성이 동일한 문단 블록들을 동일한 문단 블록 집합으로 구분하고,
각 문단 블록 집합 중의 각 문단 블록에 포함된 문자수 및 각 문단 블록 사이의 행 간격에 따라 각 블록 집합 중의 짧은 표제 구조를 식별하고,
포함된 텍스트에 따라 각 문단 블록 집합 중 짧지 않은 표제 구조를 가진 문단 블록에 대해 분류를 진행도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
제13항에 있어서,
상기 추출 유닛은,
식별된 짧은 표제 구조에 따라 웹 페이지 문서에 대응하는 웹 페이지 본문 내용에 대해 로직 블록 구분을 진행하고,
정규 표현식을 이용하여 각 짧은 표제 구조가 질문인지를 판단하고, 질문일 경우, 상기 짧은 표제를 후보 질문으로 설정하고,
상기 웹 페이지 내용에서 후보 질문의 위치 및 웹 페이지 내용의 로직 블록 구분 결과에 따라 후보 질문에 대응되는 후보 해답을 추출하고,
후보 질문과 후보 해답 사이에 이격된 행 수량, 후보 해답 중의 숫자 번호가 연속되는지 여부, 해답 항목 수량, 해답 중 질문으로 판정된 항목 수량 중의 적어도 하나를 기반으로, 질문 및 해답을 포함하는 정보를 추출하도록 더 구성되는 것을 특징으로 하는 정보 추출 장치.
기기에 있어서,
프로세서; 및
저장 장치;를 포함하되,
상기 저장 장치에는 상기 프로세서에 의해 실행될 수 있는 컴퓨터 판독 가능한 명령어가 저장되고, 상기 컴퓨터 판독 가능한 명령어가 실행될 경우, 상기 프로세서는 정보 추출 방법을 실행하되, 상기 정보 추출 방법은,
사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 기기.
비 휘발성 컴퓨터 저장 매체에 있어서,
상기 컴퓨터 저장 매체에는 프로세서로 실행할 수 있는 컴퓨터 판독 가능한 명령어가 저장되고, 상기 컴퓨터 판독 가능한 명령어가 실행될 경우, 상기 프로세서는 정보 추출 방법을 실행하되, 상기 정보 추출 방법은,
사전에 획득한 웹 페이지 문서를 태그 트리 구조로 해석하고, 상기 태그 트리의 노드로부터 상기 웹 페이지 문서의 웹 페이지 본문이 위치한 적어도 하나의 본문 노드를 식별하는 단계;
상기 적어도 하나의 본문 노드에 포함된 내용에 대해 문단 구분을 진행하여 각 문단 블록을 생성하고, 각 문단 블록과 연관된 태그의 속성에 따라 각 문단 블록에 대해 태그 속성을 설정하는 단계;
각 문단 블록의 태그 속성을 기반으로 각 문단 블록에 포함된 텍스트 내용에 대해 분류를 진행하는 단계; 및
분류 결과를 기반으로 문단 블록에 포함된 텍스트 내용으로부터 질문 및 해답을 포함하는 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 비 휘발성 컴퓨터 저장 매체.