KR20090045520A - 시맨틱 기술을 이용한 태그어 자동 생성 방법 - Google Patents

시맨틱 기술을 이용한 태그어 자동 생성 방법 Download PDF

Info

Publication number
KR20090045520A
KR20090045520A KR1020070111384A KR20070111384A KR20090045520A KR 20090045520 A KR20090045520 A KR 20090045520A KR 1020070111384 A KR1020070111384 A KR 1020070111384A KR 20070111384 A KR20070111384 A KR 20070111384A KR 20090045520 A KR20090045520 A KR 20090045520A
Authority
KR
South Korea
Prior art keywords
tag
word
words
tag word
semantics
Prior art date
Application number
KR1020070111384A
Other languages
English (en)
Inventor
조광현
Original Assignee
조광현
주식회사 시맨틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조광현, 주식회사 시맨틱스 filed Critical 조광현
Priority to KR1020070111384A priority Critical patent/KR20090045520A/ko
Publication of KR20090045520A publication Critical patent/KR20090045520A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 웹 상에서 새로 작성된 글이나 이미 게시된 글을 시맨틱 기술을 이용하여 분석하여 자동으로 태그어(tag word)를 생성해 주는 시맨틱을 이용한 태그어 자동 생성 방법에 관한 것이다.
본 발명의 방법은 태그어를 작성할 글을 입력받는 단계; 입력된 글에서 단어를 추출한 후 필터링하여 분야를 판별하는 단계; 추출된 단어를 해당 분야의 태그어와 비교하여 연관성을 계산하는 단계; 상기 계산결과 연관성이 높은 단어들을 태그어로 선택하는 단계; 및 상기 선택된 태그어를 출력하는 단계로 구성된다.
본 발명에 따르면 새로 작성된 글이나 이미 게시된 글을 분석하여 해당 글에 적합한 태그어를 자동으로 생성해주므로 태그어를 사람이 입력할 필요가 없어 편리하고, 생성된 태그어를 이용하여 검색 및 광고에 활용함으로써 게시된 글의 효용성을 증대시킬 수 있다.
태그어 자동 생성, 분야 판별, 태그, 게시글, 블로그

Description

시맨틱을 이용한 태그어 자동 생성 방법 { METHOD OF GENERATING TAG WORD AUTOMATICALLY BY SEMANTICS }
본 발명은 웹 문서 처리기술에 관한 것으로, 더욱 상세하게는 웹 상에서 새로 작성된 글이나 이미 게시된 글을 분석하여 자동으로 태그어(tag word)를 생성해 주는 시맨틱을 이용한 태그어 자동 생성 방법에 관한 것이다.
일반적으로, '태그'는 어떤 언어의 요소 기술자(記述子)를 가리키는 일반적인 용어이다. 하나의 문서 또는 정보 단위에 사용되는 태그모음을 마크업이라고 부르는데, 이 용어는 컴퓨터가 생기기 전의 시대에 필자나 편집자가 문서요소들에 편집용 부호나 속기용 부호 등을 적어 넣던 것으로부터 생겨났다. HTML이 마크업용 태그 모음의 대표적인 예이다.
한편, 최근에 블로그와 게시판 등이 널리 사용되면서 블로그나 게시판에 작성된 글을 검색하기 용이하도록 글의 내용이나 성격을 나타내는 키워드를 '태그어'라고 한다. 이와 같은 성격의 '태그어'를 이용할 경우에는 해당 글의 분류나 검색 등이 용이하므로 매우 유용하게 이용될 수 있는데, 종래에는 도 1에 도시된 바와 같이, 네티즌이 게시판이나 블로그에 글을 작성한 후 작성자가 직접 '태그어'를 입력하여 작성된 글과 태그어를 저장하였다(S11~S16).
블로그나 게시판에 글을 작성하는 작성자가 직접 태그어를 입력할 경우에는 태그어로 사용하기에 적합한 단어를 찾아 직접 입력해야 하므로 번거로운 문제점이 있다. 또한 태그어를 입력하지 않고 이미 게시된 글이나 기사, 뉴스 등과 같은 경우에는 사람이 게시된 글을 읽고 다시 태그를 입력해야 하므로 번거롭고 시간이 오래 걸리는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해소하기 위해 제안된 것으로, 본 발명의 목적은 새로 작성된 글이나 이미 게시된 글을 분석하여 해당 글에 적합한 태그어를 자동으로 생성해주는 시맨틱을 이용한 태그어 자동 생성 방법에 관한 것이다.
상기와 같은 목적을 달성하기 위하여 본 발명의 방법은, 태그어를 작성할 글을 입력받는 단계; 입력된 글에서 단어를 추출한 후 필터링하여 분야를 판별하는 단계; 추출된 단어를 해당 분야의 태그어와 비교하여 연관성을 계산하는 단계; 상기 계산결과 연관성이 높은 단어들을 태그어로 선택하는 단계; 및 상기 선택된 태그어를 출력하는 단계를 구비한 것을 특징으로 한다.
상기 태그어를 작성할 글은 게시판이나 블로그에 새로 입력된 글이나 웹 상에서 이미 게시된 글이고, 상기 태그어 자동 생성방법은 생성된 태그어들을 변경하거나 추가 및 삭제하기 위한 편집 단계를 더 구비할 수 있다.
또한 상기 연관성을 계산하는 단계는 단어간의 평균적인 거리를 점수화하는 것이고, 상기 태그어를 선택하는 단계는 연관성이 높은 순서대로 소정 수의 단어를 태그어로 선택하는 것이다.
본 발명에 따르면 새로 작성된 글이나 이미 게시된 글을 분석하여 해당 글에 적합한 태그어를 자동으로 생성해주므로 태그어를 사람이 입력할 필요가 없어 편리하고, 생성된 태그어를 이용하여 검색 및 광고에 활용함으로써 게시된 글의 효용성을 증대시킬 수 있다.
본 발명과 본 발명의 실시에 의해 달성되는 기술적 과제는 다음에서 설명하는 본 발명의 바람직한 실시예들에 의하여 보다 명확해질 것이다. 다음의 실시예들은 단지 본 발명을 설명하기 위하여 예시된 것에 불과하며, 본 발명의 범위를 제한하기 위한 것은 아니다.
도 2는 본 발명이 적용되는 서버 시스템의 예를 도시한 구성 블럭도이다.
본 발명에 따라 태그어를 자동으로 생성해 주는 기능이 구비된 게시판이나 블로그 서버(120)는 도 2에 도시된 바와 같이 웹 접속모듈(121), 게시판/블로그 처리모듈(122), 게시판/블로그 데이터베이스(123), 자동 태그생성모듈(124), 태그 데 이터베이스(125)로 구성되어 인터넷(102)을 통해 사용자 PC(110)가 접속되어 사용자가 게시판이나 블로그를 이용할 수 있도록 되어 있다.
도 2를 참조하면, 사용자 PC(110)는 웹 브라우저 등이 탑재되어 인터넷(102)을 통해 게시판/블로그 서버(120)에 접속할 수 있도록 되어 있고, 게시판/블로그 서버(120)의 웹 접속모듈(121)은 인터넷(102)을 통해 사용자의 접속을 관리한다. 게시판/블로그 처리모듈(122)은 사용자가 요구하는 게시판이나 블로그 서비스를 제공하고, 자동 태그생성모듈(124)은 게시판이나 블로그에서 글쓰기가 끝난 후 태그어 생성을 요청받으면 작성된 글을 분석하여 자동으로 태그어를 생성한 후 게시판/블로그 처리모듈(122)로 생성된 태그어를 전달한다. 이에 따라 게시판/블로그 처리모듈(122)은 입력된 글과 자동으로 생성된 태그어를 게시판/블로그 데이터베이스(123)에 저장한다. 태그 데이터베이스(125)에는 태그어를 생성하기 위한 분야별 태그어들이 저장되어 있다.
이어서, 본 발명에 따른 태그어 자동 생성방법을 게시판이나 블로그에 글을 새로 작성하는 경우를 예로 들어 설명하면 다음과 같다.
도 3은 본 발명에 따른 태그어 자동 생성 절차를 도시한 순서도이고, 도 4는 도 3에 도시된 태그 자동 생성 단계의 세부 절차를 도시한 순서도이며, 도 5는 본 발명이 적용된 게시판 화면의 예이다.
도 3을 참조하면, 사용자는 PC(110)에서 웹 브라우저를 실행하여 인터넷(102)을 통해 게시판/블로그 서버의 웹 접속 모듈(121)에 접속한다. 이후 게시판 /블로그 처리모듈(122)을 통해 게시판이나 블로그 서비스를 이용한다(S1).
게시판이나 블로그 서비스 화면에서 글쓰기를 선택하면, 도 5에 도시된 바와 같이 글쓰기 창이 나타나고, 사용자는 글쓰기 창(51)에서 글을 작성한다(S2). 글쓰기가 끝나면 화면상에 표시된 태그생성 버튼을 클릭하여 태그어 자동 생성을 요청한다(S3).
이에 따라 자동 태그생성모듈(124)은 입력된 글을 분석하여 태그어를 자동으로 생성한 후 생성된 태그어를 도 5에 도시된 바와 같이 태그 표시창(52)에 표시한다(S4,S5). 사용자가 태그어를 수정하거나 추가할 필요가 있으면 편집 버튼(53)을 클릭하고, 이에 따라 태그 편집모드에서 생성된 태그어를 삭제하거나 변경 혹은 추가한다(S6,S7). 태그편집이 끝난 후 저장버튼(54)을 누르면 새로 입력된 글과 태그어가 해당 데이터베이스(123)에 저장된다(S8,S9).
한편, 태그어를 자동으로 생성하는 세부 절차(S4)에서는 도 4에 도시된 바와 같이, 작성된 글에서 단어를 추출한 후 필터링을 거쳐 해당 글의 분야를 판별한다(S41~S43). 분야가 판별되면 추출된 단어를 태그 데이터베이스(125)에 분야별로 미리 구축된 태그어와 비교하여 그 단어의 연관성을 계산한다(S44). 여기서 연관성은 단어간의 평균적인 거리를 점수화한 것이다.
이후 연관성이 기준치 이상이면 해당 단어를 태그어로 선택하고, 이러한 과정을 반복하여 전체 단어에 대한 분석이 끝나면 선택된 태그어를 출력한다(S45~S48). 이때 선택된 태그어가 많을 경우에는 연관도가 높은 순위에 따라 일정 수의 태그어만을 최종 태그어로서 출력하고, 태그어 수가 적을 경우에는 선택되 지 않은 단어 중에서 연관도가 높은 단어들을 태그어로 선택한다.
이와 같이 본 발명에 따르면 게시판이나 블로그 등에 새로 글을 작성할 경우에 작성자가 태그어를 직접 입력하지 않아도 자동으로 태그어를 생성하여 사용할 수 있도록 함으로써 매우 편리한 잇점이 있다.
또한 본 발명의 실시예에서는 게시판이나 블로그에서 새로 글을 작성하는 경우만을 예로 들어 설명하였으나 신문기사와 같이 이미 게시된 글이나 이전에 작성되어 게시된 글에 대해서도 동일한 방식을 적용하여 해당 글의 태그어를 자동으로 생성할 수 있다.
그리고 이와 같이 생성된 태그어는 해당 글의 검색이나 광고 등에 효과적으로 이용할 수 있다.
이상에서 본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
도 1은 종래에 태그어를 입력하는 절차를 도시한 순서도,
도 2는 본 발명이 적용되는 서버 시스템의 예를 도시한 구성 블럭도,
도 3은 본 발명에 따른 태그어 자동 생성 절차를 도시한 순서도,
도 4는 도 3에 도시된 태그 자동 생성 단계의 세부 절차를 도시한 순서도,
도 5는 본 발명이 적용된 게시판 화면의 예.
*도면의 주요부분에 대한 부호의 설명
110: 사용자 PC 120: 게시판/블로그 서버
121: 웹 접속 모듈 122: 게시판/블로그 처리모듈
123: 게시판/블로그 데이터베이스 124: 자동 태그생성모듈
125: 태그 데이터베이스

Claims (5)

  1. 태그어를 작성할 글을 입력받는 단계;
    입력된 글에서 단어를 추출한 후 필터링하여 분야를 판별하는 단계;
    추출된 단어를 해당 분야의 태그어와 비교하여 연관성을 계산하는 단계;
    상기 계산결과 연관성이 높은 단어들을 태그어로 선택하는 단계; 및
    상기 선택된 태그어를 출력하는 단계를 구비한 것을 특징으로 하는 시맨틱을 이용한 태그어 자동 생성 방법.
  2. 제1항에 있어서, 상기 태그어를 작성할 글은
    게시판이나 블로그에 새로 입력된 글이나 웹 상에서 이미 게시된 글인 것을 특징으로 하는 시맨틱을 이용한 태그어 자동 생성 방법.
  3. 제1항에 있어서, 상기 태그어 자동 생성방법은,
    생성된 태그어들을 변경하거나 추가 및 삭제하기 위한 편집 단계를 더 구비한 것을 특징으로 하는 시맨틱을 이용한 태그어 자동 생성 방법.
  4. 제1항에 있어서, 상기 연관성을 계산하는 단계는,
    단어간의 평균적인 거리를 점수화하는 것을 특징으로 하는 시맨틱을 이용한 태그어 자동 생성 방법.
  5. 제1항에 있어서, 상기 태그어를 선택하는 단계는,
    연관성이 높은 순서대로 소정 수의 단어를 태그어로 선택하는 것을 특징으로 하는 시맨틱을 이용한 태그어 자동 생성 방법.
KR1020070111384A 2007-11-02 2007-11-02 시맨틱 기술을 이용한 태그어 자동 생성 방법 KR20090045520A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070111384A KR20090045520A (ko) 2007-11-02 2007-11-02 시맨틱 기술을 이용한 태그어 자동 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070111384A KR20090045520A (ko) 2007-11-02 2007-11-02 시맨틱 기술을 이용한 태그어 자동 생성 방법

Publications (1)

Publication Number Publication Date
KR20090045520A true KR20090045520A (ko) 2009-05-08

Family

ID=40855609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070111384A KR20090045520A (ko) 2007-11-02 2007-11-02 시맨틱 기술을 이용한 태그어 자동 생성 방법

Country Status (1)

Country Link
KR (1) KR20090045520A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479040B1 (ko) * 2012-01-05 2015-01-05 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
KR20190027760A (ko) * 2017-09-07 2019-03-15 주식회사 마이셀럽스 취향필터에 기반한 추천 정보 제공 단말 및 장치
CN113591004A (zh) * 2021-08-04 2021-11-02 北京小米移动软件有限公司 游戏标签生成方法、装置、存储介质及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479040B1 (ko) * 2012-01-05 2015-01-05 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
EP2801917A4 (en) * 2012-01-05 2015-08-26 Tencent Tech Shenzhen Co Ltd METHOD, APPARATUS AND COMPUTER STORAGE MEDIUM FOR AUTOMATICALLY ADDING LABELS TO A DOCUMENT
US9146915B2 (en) 2012-01-05 2015-09-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document
KR20190027760A (ko) * 2017-09-07 2019-03-15 주식회사 마이셀럽스 취향필터에 기반한 추천 정보 제공 단말 및 장치
CN113591004A (zh) * 2021-08-04 2021-11-02 北京小米移动软件有限公司 游戏标签生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US10380197B2 (en) Network searching method and network searching system
CN103049435B (zh) 文本细粒度情感分析方法及装置
US10515125B1 (en) Structured text segment indexing techniques
US20150067476A1 (en) Title and body extraction from web page
US9594730B2 (en) Annotating HTML segments with functional labels
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20090248678A1 (en) Information recommendation device and information recommendation method
US20170161619A1 (en) Concept-Based Navigation
US9032285B2 (en) Selective content extraction
EP1887485A2 (en) Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product
WO2019153685A1 (zh) 文本处理方法、装置、计算机设备和存储介质
US11651015B2 (en) Method and apparatus for presenting information
CN113544689A (zh) 为文档的来源观点生成并提供附加内容
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
Mika Microsearch: An Interface for Semantic Search.
CN104881446A (zh) 搜索方法及装置
CN118132699A (zh) 回复信息生成方法、装置、客户端和存储介质
KR20090045520A (ko) 시맨틱 기술을 이용한 태그어 자동 생성 방법
US11514241B2 (en) Method, apparatus, and computer-readable medium for transforming a hierarchical document object model to filter non-rendered elements
US20150227592A1 (en) Mining Questions Related To An Electronic Text Document
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20100729

Effective date: 20110615