KR20070067058A - 웹 문서 제목 추출 방법 및 그 장치 - Google Patents
웹 문서 제목 추출 방법 및 그 장치 Download PDFInfo
- Publication number
- KR20070067058A KR20070067058A KR1020070057633A KR20070057633A KR20070067058A KR 20070067058 A KR20070067058 A KR 20070067058A KR 1020070057633 A KR1020070057633 A KR 1020070057633A KR 20070057633 A KR20070057633 A KR 20070057633A KR 20070067058 A KR20070067058 A KR 20070067058A
- Authority
- KR
- South Korea
- Prior art keywords
- title
- candidate
- web document
- candidate phrase
- attribute
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
인터넷 상의 웹 문서에서 그 내용에 적합한 최적의 제목을 추출하는 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 웹 문서의 제목 추출 방법은 웹 문서를 파싱하여 제목으로 선택될 수 있는 후보 문구를 추출하는 단계; 상기 후보문구의 속성들을 분석하는 단계; 상기 분석된 속성들에 기초하여 상기 후보문구의 제목으로서의 적합도를 계산하는 단계; 및 상기 적합도가 최대인 후보문구를 상기 웹 문서의 제목으로 결정하는 단계를 포함하는 것을 특징으로 한다 이에 의해, 웹 문서의 제목으로 가장 적합한 텍스트가 타이틀 태그로 설정되어 있지 않은 경우에도 그 웹 문서를 대표할 수 있는 제목을 자동으로 추출할 수 있는 효과가 있다.
Description
도 1a는 웹 문서가 웹 브라우저를 통해 디스플레이된 화면의 일예를 도시한 도면,
도 1b는 도 1a의 웹 문서의 소스 파일을 도시한 도면,
도 2는 본 발명의 바람직한 실시예에 따른 웹 문서 제목 추출 방법의 플로우차트,
도 3은 본 발명의 바람직한 실시예에 따른 웹 문서 제목 추출 장치의 블록도이다.
본 발명은 인터넷 상에서의 문서 가공에 관한 것으로, 보다 상세하게는 웹 문서에서 그 내용에 적합한 최적의 제목을 추출하는 방법 및 그 장치에 관한 것이다.
HTML과 같은 마크업 언어로 작성된 웹 문서에서는 일반적으로 그 웹 문서의 제목을 나타내는 <title>과 같은 태그(tag)가 존재하고 이 <title> 태그를 사용하 여 "<title>평생교육원(소설창작)</title>"과 같은 신택스에 따라 그 웹 문서에 적합한 제목을 웹 문서의 작성자가 직접 입력함으로써 웹 문서의 제목을 정한다. 그러면 검색 엔진은 웹 문서를 수집하면서 <title> 태그 내에 있는 데이터를 제목으로 인식하여 검색을 수행하고 그 결과를 사용자에게 보여준다.
그러나 웹 문서의 작성자가 이러한 <title> 태그의 내용을 입력하는데 소홀히 하는 경우가 많아 검색 엔진이 추출한 웹 문서의 제목과 실제 내용이 차이가 나는 경우가 많이 있다. 따라서 검색 엔진이 추출한 제목만 가지고는 해당 웹 문서의 내용을 파악하는데 어려움이 있어 일일이 그 내용을 모두 확인해 보아야 하는 경우가 많았다.
따라서 본 발명이 이루고자 하는 기술적 과제는 웹 문서 자체에 포함된 제목 태그에 의존하지 않고, 웹 문서를 구성하는 실제 내용 데이터와, 태그를 포함한 그 내용 관련 데이터로부터 복수개의 제목 후보구를 추출하고, 이들 후보구들의 속성에 따라 제목으로서의 적합도를 계산한 후 최적의 적합도를 가진 후보구를 제목으로 결정하는 웹 문서의 제목 추출 방법 및 그 장치를 제공하는 것이다.
상기 기술적 과제는 본 발명에 따라, 웹 문서를 파싱하여 제목으로 선택될 수 있는 후보 문구를 추출하는 단계; 상기 후보문구의 속성들을 분석하는 단계; 상기 분석된 속성들에 기초하여 상기 후보문구의 제목으로서의 적합도를 계산하는 단계; 및 상기 적합도가 최대인 후보문구를 상기 웹 문서의 제목으로 결정하는 단계 를 포함하는 것을 특징으로 하는 웹 문서의 제목 추출 방법에 의해 달성된다.
상기 후보문구 추출 단계는, 상기 웹 문서를 구성하는 태그 안에 있는 어구들을 추출하는 것이 바람직하다.
상기 속성 분석 단계는, 상기 후보문구로부터 상기 후보문구의 크기, 위치, 색깔, 상기 후보문구가 속한 문자열의 길이와 같은 속성변수 및 상기 속성변수들의 값을 포함하는 속성정보를 획득하는 것이 바람직하다.
상기 속성정보는 상기 후보문구의 속성들을 정의하는 태그들을 분석함으로써 획득할 수 있다.
상기 적합도 계산 단계는, 상기 후보문구의 속성들에 대응되는 속성값들을 조합하여 상기 적합도를 계산하거나, 상기 후보문구의 속성들에 대응되는 속성값들과 결정트리를 이용하여 상기 후보문구가 제목으로 결정될 확률값을 산정함으로써 상기 적합도를 계산하는 것이 바람직하다.
한편, 본 발명의 다른 분야에 따르면, 상기 기술적 과제는 웹 문서를 파싱하여 제목으로 선택될 수 있는 후보 문구를 추출하는 후보 문구 추출부; 상기 후보문구의 속성들을 분석하는 속성 분석부; 상기 분석된 속성들에 기초하여 상기 후보문구의 제목으로서의 적합도를 계산하는 적합도 계산부; 및 상기 적합도가 최대인 후보문구를 상기 웹 문서의 제목으로 결정하는 제목 결정부를 포함하는 것을 특징으로 하는 웹 문서의 제목 추출 장치에 의해서도 달성된다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.
도 1a는 웹 문서가 웹 브라우저를 통해 디스플레이된 화면의 일예를 도시한 도면이다.
도 1a를 참조하면, 웹 문서가 웹 브라우저를 통해 디스플레이되는데 있어서 그 웹 문서의 제목이 웹 브라우저 상단의 타이틀 바에 제목(110)으로 나타남을 알 수 있다. 이 제목은 일반적으로는 그 웹 문서의 내용을 대표할 수 있는 텍스트가 들어가게 되지만 경우에 따라서는 그 웹 문서의 내용을 대표하지 못하는 텍스트가 들어가기도 한다.
예를 들어, 도 1a의 웹 문서의 제목으로써 웹 브라우저의 타이틀 바에 표시된 내용은 "평생교육원(소설창작)"이지만 실제 웹 문서의 내용은 평생교육원에서 강의하는 소설창작 강의 중에서 소도구, 복선, 삽화를 이용하여 소설을 써나가는 것에 대한 것이므로 "평생교육원(소설창작)"은 이 웹 문서의 제목으로 적합하지 않고, 웹 문서 내에서의 챕터 제목으로 표시한 부분(120)에 들어간 "소도구, 복선, 삽화"가 제목으로써 보다 적합함을 알 수 있다.
도 1b는 도 1a의 웹 문서의 소스 파일을 도시한 도면이다.
도 1a에 도시한 웹 문서의 소스는 HTML과 같은 마크업 언어로 작성되어 있으며, HTML은 <head>, <title>, <p>, <table> 등 다양한 태그가 존재한다. 이들 태그 중에서 <title> 태그는 이 웹 문서의 제목을 나타내는 태그이고, 본문의 내용은 패러그래프(paragraph)를 의미하는 태그인 <p> 태그를 사용하여 입력된다. 도 1b에 도시한 웹 문서에서, 도 1a와 같이 제목이 표시되는 타이틀 바(110)에 표시되는 내용은 신택스 "<title>평생교육원(소설창작)</title>"(130)에 대응된다. 그러나 실 제 내용을 바탕으로 이 웹 문서를 분석하여 보면 가장 적합한 제목은, "소도구, 복선, 삽화</font></font></td>"(140) 부분에서 추출한 텍스트임을 알 수 있다.
도 2는 본 발명의 바람직한 실시예에 따른 웹 문서 제목 추출 방법의 플로우차트이다.
먼저, 웹 문서를 파싱하여 그 웹 문서의 제목으로 선택될 수 있는 후보 문구들을 적어도 하나 추출한다(S210). 일예로, 웹 문서를 구성하는 마크업 문서의 태그 안에 있는 문구들을 추출하는데, 웹 문서의 내용과 관련된 데이터는 <title> 태그나 패러그래프를 의미하는 <p> 태그에 들어 있으므로 이러한 태그에 포함된 텍스트의 문구를 후보문구로 추출한다. 도 1a 내지 도 1b의 예에서는 "평생교육원(소설창작)", "14주차 강의 자료", "소도구, 복선, 삽화", "소설은 사건의 연속체" 등이 후보 문구로 추출될 수 있다.
후보 문구들이 추출된 후에는 이들 추출된 후보문구들이 가지고 있는 속성들을 분석한다(S220). 후보 문구들은 이를 어떻게 웹 브라우저 상에 디스플레이하는가를 나타내는 다른 태그들과 함께 쓰이는데, 예를 들어 텍스트의 폰트를 나타내는 <font>, 텍스트의 크기를 나타내는 <size>, 텍스트의 정렬 위치를 나타내는 <align>, 텍스트의 색깔을 나타내는 <color> 등과 함께 쓰인다. 따라서 이러한 태그를 분석하면 해당 후보 문구들의 속성을 알아낼 수 있다. 한편, 이러한 후보 문구 자체의 속성뿐만 아니라 후보 문구가 들어가 있는 단락의 길이 등도 후보문구의 속성으로 사용할 수 있다. 후보문구의 속성을 표현하기 위해 속성변수를 사용하며 속성변수는 전술한 태그들의 값을 저장한다. 속성변수는 일정한 범위내에서 연속적 으로 변하는 값을 갖는 연속변수가 될 수 있으며, 0과 1의 값을 갖는 이산변수가 될 수도 있다. 예를 들어 텍스트의 크기를 나타내는 속성변수는 연속변수가 되며, 문구가 여러줄에 걸쳐 있는 지의 여부를 나타내는 속성변수는 이산변수가 된다.
다음으로 이렇게 분석된 속성변수의 값에 기초하여 후보문구들의 제목으로서의 적합도를 계산한다(S230). 즉, 후보문구들의 웹 문서상의 절대위치, 문서 전체에서의 상대위치, 문자열이 브라우징 될 경우의 그 문단의 절대적 크기, 폰트의 크기, 폰트 웨이트(weight), 전체 문서의 크기에 대한 폰트의 상대적 크기, 문서내에서의 폰트의 크기의 순서, 해당 문구가 여러줄에 걸쳐있는지 여부, 수평 및 수직으로 같은 DOM(Document Object Model)의 개수, 문자열에 붙어 있는 태그 네임, 문서에서 출현하는 문단의 순서, 후보문구의 문자열의 길이, 문서내에서 문자열의 foreground color의 빈도의 역순서, 문서내에서 문자열의 background color의 빈도의 역순서 및 문자열의 문서내 발생확률을 로그값으로 정규화 한 값들 중 적어도 하나 이상을 포함하여 산출한다.
일예로, 후보문구가 웹 문서의 중앙에 위치하고 있거나, 텍스트의 크기가 크거나, 텍스트의 색이 다른 후보문구와 다르거나 하는 경우에는 제목이 될 확률이 높으므로 전술한 여러 가지 속성값들을 단순히 조합하거나, 또는 특정 속성에 가중치를 두는 방법 등을 사용하여 적합도를 계산한다.
다른 실시예로, 후보문구가 제목으로 결정될 확률을 계산하는 방법을 구현함에 있어서 바람직하게는 결정 트리의 일종인 CART(classification and regression tree)를 사용하여 최적의 트리 구조를 학습시킨 후, 이 결정 트리를 이용하여 확률 을 계산할 수 있다. 이를 위하여 먼저 제목으로의 적합성을 알고 있는 복수개의 후보문구들을 결정 트리에 입력하고, 각 노드에서 전술한 속성변수를 기초로 소정의 판단과정(결정과정)을 순차적으로 거침으로써, 그 후보문구가 제목으로 결정될 확률과 제목으로 결정되지 않을 확률을 구한다. 복수개의 알고 있는 후보문구를 이러한 결정트리에 입력하여 학습시킴으로써 제목이 될 확률이 높은 후보문구를 실제로 제목으로 결정할 수 있도록 최적의 결정트리를 만드는 것이다. 이렇게 하여 만들어진 결정트리에 실제 적합도를 얻고자 하는 후보문구를 입력하여 그 적합도(확률값)를 계산한다.
마지막으로 이렇게 계산된 적합도 값이 최대인 후보문구를 그 웹 문서의 제목으로 결정한다(S240).
도 3은 본 발명의 바람직한 실시예에 따른 웹 문서 제목 추출 장치의 블록도이다.
웹 문서 제목 추출 장치는, 후보 문구 추출부(310), 속성 분석부(320), 적합도 계산부(330) 및 제목 결정부(340)를 포함한다. 후보 문구 추출부(310)는 웹 문서를 파싱하여 그 웹 문서의 제목으로 선택될 수 있는 후보 문구들을 추출한다. 후보 문구를 추출하는데 있어 웹 문서가 HTML과 같은 마크업 문서로 만들어진 경우에는 웹 문서를 구성하는 마크업 문서의 태그 안에 있는 어구들을 추출한다. 전술한 바와 같이 일예로 태그 <p>에 속한 문자열에서 어구들을 추출할 수 있다.
속성 분석부(320)는 이렇게 추출된 후보문구들이 가지고 있는 속성들을 분석한다. 즉, 추출된 후보문구의 속성정보로써 후보문구의 크기, 위치, 색깔, 후보문 구가 속한 문자열의 길이를 포함하는 속성정보와 그 값을 얻는다. 이러한 속성정보로써의 속성변수와 그 의미는 전술한 바와 같다. 적합도 계산부(330)는 분석된 속성들에 기초하여 후보문구들의 제목으로서의 타당한 정도인 적합도를 계산한다. 예를 들어, 추출한 후보문구가 가지고 있는 속성들에 대응되는 속성값들을 바탕으로 적합도를 계산하거나 전술한 결정트리에 의해 확률값을 계산함으로써 적합도를 계산한다. 제목 결정부(340)는 이렇게 계산된 적합도 값이 최대인 후보문구를 상기 웹 문서의 제목으로 결정한다.
한편, 전술한 웹 문서 제목 추출 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 웹 문서 제목 추출 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체, 및 캐리어 웨이브 매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
전술한 바와 같이 본 발명에 따르면, 웹 문서를 구성하는 마크업 문서의 태그 정보를 분석하여 그 웹 문서의 작성자가 그 문서를 대표하는 제목으로 삼으려 하였던 문구를 역으로 파악함으로서, 비록 그 웹 문서의 제목으로 가장 적합한 텍스트가 타이틀 태그로 설정되어 있지 않은 경우에도 그 웹 문서를 대표할 수 있는 제목을 자동으로 추출할 수 있는 효과가 있다.
Claims (8)
- 웹 문서를 파싱하여 제목으로 선택될 수 있는 후보 문구를 추출하는 단계;상기 후보문구의 속성들을 분석하는 단계;상기 분석된 속성들에 기초하여 상기 후보문구의 제목으로서의 적합도를 계산하는 단계; 및상기 적합도가 최대인 후보문구를 상기 웹 문서의 제목으로 결정하는 단계를 포함하는 것을 특징으로 하는 웹 문서의 제목 추출 방법.
- 제1항에 있어서, 상기 후보문구 추출 단계는상기 웹 문서를 구성하는 태그 안에 있는 어구들을 추출하는 것을 특징으로 하는 웹 문서의 제목 추출 방법.
- 제1항에 있어서, 상기 속성 분석 단계는상기 후보문구로부터 상기 후보문구의 크기, 위치, 색깔, 상기 후보문구가 속한 문자열의 길이와 같은 속성변수 및 상기 속성변수들의 값을 포함하는 속성정보를 획득하는 것을 특징으로 하는 웹 문서의 제목 추출 방법.
- 제3항에 있어서, 상기 속성 분석 단계에서상기 속성정보는 상기 후보문구의 속성들을 정의하는 태그들을 분석함으로써 획득되는 것을 특징으로 하는 웹 문서의 제목 추출 방법.
- 제1항에 있어서, 상기 적합도 계산 단계는상기 후보문구의 속성들에 대응되는 속성값들을 조합하여 상기 적합도를 계산하는 것을 특징으로 하는 문서의 제목 추출 방법.
- 제1항에 있어서, 상기 적합도 계산 단계는상기 후보문구의 속성들에 대응되는 속성값들과 결정트리를 이용하여 상기 후보문구가 제목으로 결정될 확률값을 산정함으로써 상기 적합도를 계산하는 것을 특징으로 하는 웹 문서의 제목 추출 방법.
- 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 웹 문서를 파싱하여 제목으로 선택될 수 있는 후보 문구를 추출하는 후보 문구 추출부;상기 후보문구의 속성들을 분석하는 속성 분석부;상기 분석된 속성들에 기초하여 상기 후보문구의 제목으로서의 적합도를 계산하는 적합도 계산부; 및상기 적합도가 최대인 후보문구를 상기 웹 문서의 제목으로 결정하는 제목 결정부를 포함하는 것을 특징으로 하는 웹 문서의 제목 추출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070057633A KR20070067058A (ko) | 2007-06-13 | 2007-06-13 | 웹 문서 제목 추출 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070057633A KR20070067058A (ko) | 2007-06-13 | 2007-06-13 | 웹 문서 제목 추출 방법 및 그 장치 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050097455A Division KR20070095506A (ko) | 2005-10-17 | 2005-10-17 | 웹 문서 제목 추출 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20070067058A true KR20070067058A (ko) | 2007-06-27 |
Family
ID=38365917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070057633A KR20070067058A (ko) | 2007-06-13 | 2007-06-13 | 웹 문서 제목 추출 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20070067058A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262401B2 (en) | 2010-07-05 | 2016-02-16 | Nhn Corporation | Method and system for providing representative phrase |
US9479839B2 (en) | 2010-07-06 | 2016-10-25 | Nhn Corporation | Method and system for providing a representative phrase based on keyword searches |
KR102158352B1 (ko) | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
-
2007
- 2007-06-13 KR KR1020070057633A patent/KR20070067058A/ko not_active Application Discontinuation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262401B2 (en) | 2010-07-05 | 2016-02-16 | Nhn Corporation | Method and system for providing representative phrase |
US9479839B2 (en) | 2010-07-06 | 2016-10-25 | Nhn Corporation | Method and system for providing a representative phrase based on keyword searches |
KR102158352B1 (ko) | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551567B2 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
KR102158352B1 (ko) | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 | |
US7469251B2 (en) | Extraction of information from documents | |
US20180366013A1 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
US6912555B2 (en) | Method for content mining of semi-structured documents | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
US20200175268A1 (en) | Systems and methods for extracting and implementing document text according to predetermined formats | |
CN104881428B (zh) | 一种信息图网页的信息图提取、检索方法和装置 | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
KR20170140808A (ko) | 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법 | |
JP4873738B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 | |
Bu et al. | An FAR-SW based approach for webpage information extraction | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
KR20070067058A (ko) | 웹 문서 제목 추출 방법 및 그 장치 | |
CN117473078A (zh) | 一种基于跨领域命名实体识别的长篇文学可视阅读系统 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR20070095506A (ko) | 웹 문서 제목 추출 방법 및 그 장치 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
KR101926669B1 (ko) | 텍스트 임베딩 모델을 이용한 객관식 빈칸 채우기 퀴즈 생성 장치 및 방법 | |
CN114462383B (zh) | 建筑图纸设计说明书获取方法、系统、存储介质及设备 | |
US11768804B2 (en) | Deep search embedding of inferred document characteristics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
WITN | Withdrawal due to no request for examination |