KR20090003739A - 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 - Google Patents
태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 Download PDFInfo
- Publication number
- KR20090003739A KR20090003739A KR1020070066658A KR20070066658A KR20090003739A KR 20090003739 A KR20090003739 A KR 20090003739A KR 1020070066658 A KR1020070066658 A KR 1020070066658A KR 20070066658 A KR20070066658 A KR 20070066658A KR 20090003739 A KR20090003739 A KR 20090003739A
- Authority
- KR
- South Korea
- Prior art keywords
- tag
- user
- information
- terminal device
- web document
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 235000019640 taste Nutrition 0.000 claims description 57
- 238000013507 mapping Methods 0.000 claims description 47
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000272201 Columbiformes Species 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
태그 정보를 이용하여 사용자 취향정보를 수집하는 단말 기기, 그 방법 및 기록매체가 개시된다. 본 발명은 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말 기기에 있어서, 상기 단말 기기에 출력된 웹 문서에 포함된 앵커 태그(anchor tag), 폼 태그(form tag) 및 이들의 조합 중 하나 이상을 검색하는 태그 검색부; 상기 검색된 태그로부터 태그 정보를 추출하는 태그 정보 추출부; 상기 태그 정보로부터 핵심어를 검출하는 핵심어 검출부; 및 상기 핵심어를 이용하여 사용자 프로파일을 포함하는 사용자 취향정보를 수집하는 사용자 취향정보 관리부를 포함하는 단말 기기가 제공된다. 본 발명에 따르면 개인 별로 사용자의 취향을 빠르고 정확하게 분석할 수 있고, 이를 바탕으로 사용자에게 맞춤형 정보를 제공할 수 있는 효과가 있다.
태그, 프로파일, 가중치
Description
본 발명은 사용자 취향정보를 수집하는 단말 기기, 그 방법 및 기록매체에 관한 것으로서, 좀 더 상세하게는 태그 정보를 이용하여 개인화된 맞춤형 사용자 취향정보를 수집할 수 있는 기술에 관한 것이다.
최근 정보통신기술의 급속한 발전과 함께 인터넷 이용률은 나날이 증가하고 있으며, 인터넷 상에 존재하는 정보도 점차 방대해지고 있다. 그러나 이 중 사용자가 실제로 필요로 하는 정보는 극히 일부이다. 따라서 사용자의 요구에 맞는 맞춤형 정보를 제공하는 것은 매우 중요하다.
특히 전자상거래 분야에서 상거래를 활성화시키고 정보제공자(웹 상점)에 대한 만족도와 충성도를 높이기 위해, 사용자 취향을 기반으로 한 상품(정보)추천은 필수적으로 요구된다. 이러한 개인화를 위해 가장 중요한 것은 사용자의 취향을 빠르고 정확하게 분석하는 것이다.
이에 사용자의 관심정보를 분석하기 위한 다양한 기법들이 연구되고 있다. 이중 가장 보편적으로 사용되는 방법은 사용자가 해당 사이트에 최초로 방문했을 때 명시적으로 표현하는 취향정보를 기반으로 맞춤형 정보(웹 컨텐츠)를 제공하는 것이다. 그러나 이러한 방법은 사용자를 번거롭게 할 수 있으며, 동적으로 변화하는 사용자의 취향을 습득하기 어렵다는 문제가 있다.
또한 이를 해결하기 위해, 사용자의 행동을 통해 암시적으로 취향을 학습하는 기법들도 연구되고 있다. 대표적인 방법으로는 사용자가 선택하는 하이퍼링크와 연결된 문서의 전체 내용을 분석하여, 해당 문서에 등장하는 단어들의 등장 빈도를 통해 사용자의 취향을 분석하는 방법이 있다.
그러나 이러한 종래 기술에 따라 연결된 문서에 포함된 모든 단어를 분석하는 것은 많은 시간이 소요될 뿐 아니라, 웹 문서에는 다양한 형태의 불필요한 정보가 포함되어 있기 때문에 이러한 정보들이 사용자의 관심정보 분석의 정확도를 떨어뜨릴 수 있다. 실제로 많은 웹 문서들은 사이트내의 이동 버튼이나 광고, 회사 소개, 저작권 정보와 같이 불필요한 정보가 반복적으로 등장한다. 특히 최근에는 특정한 템플릿을 유지하면서 내부의 내용을 동적으로 생성하는 웹 프로그래밍 방법이 많이 사용되고 있기 때문에, 더더욱 불필요한 내용이 웹 문서에 반복적으로 등장하고 있는 문제점이 있다.
또한, 종래 사용자 취향 정보는 각각의 웹 서버에 분산 관리되었는데, 이 정보가 사용자 기기에 통합관리 되며 서버가 필요할 때 이를 사용자 기기로 요청할 수 있다면, 유사한 상품을 제공하는 상점의 경우, 다른 상점의 웹 사이트에서 사용 자가 관심을 보인 정보도 유용하게 활용할 수 있다.
따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 앵커 태그 및/또는 폼 태그로부터 핵심어를 추출함으로써, 개인 단위의 사용자별 취향을 빠르고 정확하게 분석할 수 있는 방법을 제공하기 위한 것이다.
본 발명은 웹 서버에 사용자 취향정보를 제공함으로써 개인화된 검색 정보를 제공하는 방법을 제공하기 위한 것이다.
본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.
본 발명의 일측면에 따르면, 본 발명은 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말 기기에 있어서, 상기 단말 기기에 출력된 웹 문서에 포함된 앵커 태그(anchor tag), 폼 태그(form tag) 및 이들의 조합 중 하나 이상을 검색하는 태그 검색부; 상기 검색된 태그로부터 태그 정보를 추출하는 태그 정보 추출부; 상기 태그 정보로부터 핵심어를 검출하는 핵심어 검출부; 및 상기 핵심어를 이용하여 사용자 프로파일을 포함하는 사용자 취향정보를 수집하는 사용자 취향정보 관리부를 포함하는 단말 기기를 제공할 수 있다.
또한, 상기 태그 정보는 상기 앵커 태그와 상기 폼 태그를 포함하고, 상기 앵커 태그는 앵커 텍스트 및 그와 연결된 URL이고, 상기 폼 태그는 질의어 및 그와 연결된 URL일 수 있다.
또한, 상기 웹 문서에 포함된 태그 정보의 전부 또는 일부를 기록한 매핑테이블을 작성하는 매핑테이블 작성부를 더 포함할 수 있다.
또한, 상기 핵심어 검출부는 상 상기 핵심어를 검출하기 위해 상기 태그 정보에 포함된 단어들 중 불용어를 제외시키는 것일 수 있다.
또한, 상기 사용자 취향정보 관리부는 상기 검출된 핵심어 별로 가중치를 산정하는 가중치 산정부; 및 상기 핵심어 및 이에 대한 가중치의 조합으로 구성된 사용자 프로파일을 작성하는 사용자 프로파일부를 포함하는 것일 수 있다.
또한, 상기 사용자 취향정보 관리부는 상기 웹 문서간의 이동을 모니터링(monitoring)하는 사용자 모니터링부를 더 포함하는 것일 수 있다.
여기서, 상기 가중치는 핵심어의 출현 빈도가 증가함에 따라 가산되는 것일 수 있다.
또한, 상기 가중치는 매핑테이블 또는 사용자 프로파일에 존재함에도 불구하고 사용자가 선택하지 않은 핵심어에 대하여 감산되는 것일 수 있다.
또한, 상기 사용자 프로파일에 포함되는 핵심어는 상기 가중치에 따른 점수에 상응하게 순위화되는 것일 수 있다.
또한, 상기 사용자 프로파일에 포함되는 핵심어는 N(N은 자연수) 순위까지로 제한되는 것일 수 있다.
또한, 사용자로부터 디스플레이하고자 하는 웹 문서에 대한 명령 신호를 입 력 받는 입력부; 및 상기 입력된 신호에 따른 웹 문서를 디스플레이하는 출력부를 더 포함하는 것일 수 있다.
또한, 상기 태그 정보, 매핑테이블 및 사용자 프로파일에 대한 데이터를 저장하는 저장부를 더 포함하는 것일 수 있다.
본 발명의 다른 측면에 따르면, 본 발명은 단말 기기에서 태그 정보를 이용하여 사용자 취향정보를 수집하는 방법에 있어서, 상기 단말 기기에 출력된 웹 문서의 HTML 소스를 분석하여 상기 웹 문서에 포함된 앵커 태그, 폼 태그 및 이들의 조합 중 하나 이상의 태그를 검색하는 단계; 상기 검색된 태그의 태그 정보를 추출하는 단계; 상기 태그 정보로부터 핵심어를 검출하는 단계; 및 상기 핵심어를 이용하여 사용자 프로파일을 포함하는 사용자 취향정보를 수집하는 단계를 포함하는 사용자 취향정보 수집 방법을 제공할 수 있다.
또한, 상기 태그 정보는 상기 앵커 태그와 상기 폼 태그를 포함하고, 앵커 태그는 앵커 텍스트 및 그와 연결된 URL이고, 폼 태그는 질의어 및 그와 연결된 URL인 것일 수 있다.
또한, 상기 웹 문서에 포함된 태그의 전부 또는 일부에 대한 상기 태그 정보를 기록한 매핑테이블을 작성하는 단계를 더 포함하는 것일 수 있다.
또한, 상기 단말기기가 다음 웹 문서를 출력하는 단계; 상기 이동한 웹 문서의 URL을 획득하는 단계; 상기 이동한 웹 문서의 URL이 앵커 태그와 연결된 것인지 폼 태그와 연결된 것인지를 판단하는 단계; 및 상기 이동한 웹 문서의 URL이 매핑테이블에 포함된 URL이라면, 상기 URL에 상응하는 앵커 텍스트 또는 질의어를 추출 하는 단계를 더 포함하는 것일 수 있다.
또한, 상기 핵심어를 검출하는 단계는 상기 태그 정보에 포함된 단어들 중 불용어를 제외시키고 핵심어를 검출하는 것일 수 있다.
또한, 상기 사용자 취향정보를 수집하는 단계는 상기 검출된 핵심어 별로 가중치를 산정하는 단계; 및 상기 핵심어 및 이에 대한 가중치를 반영한 점수의 조합으로 구성된 사용자 프로파일을 작성하는 단계를 더 포함하는 것일 수 있다.
또한, 상기 취향정보를 수집하는 단계는 상기 웹 문서간의 이동을 모니터링(monitoring)하는 사용자 단계를 더 포함하는 것일 수 있다.
여기서, 사용자로부터 입력 받은 질의어에 대한 검색 정보를 웹 서버로 요청하는 단계; 상기 웹 서버로부터 상기 사용자 취향정보를 요청 받는 단계; 및 상기 웹 서버로 상기 사용자 취향정보를 제공하는 단계를 더 포함하는 것일 수 있다.
여기서, 상기 웹 서버로부터 상기 사용자 취향정보를 바탕으로 선택된 검색 정보를 전송 받는 단계를 더 포함하는 것일 수 있다.
또한, 상기 사용자 취향정보는 상기 단말 기기에서 작성한 사용자 프로파일인 것일 수 있다.
또한, 상기 가중치는 핵심어의 출현 빈도가 증가함에 따라 가산되는 것일 수 있다.
또한, 상기 가중치는 매핑테이블 또는 사용자 프로파일에 존재함에도 불구하고 사용자가 선택하지 않은 핵심어에 대하여 감산되는 것일 수 있다.
또한, 상기 사용자 프로파일에 포함되는 핵심어는 상기 가중치에 따른 점수 에 상응하게 순위화되는 것일 수 있다.
또한, 상기 사용자 프로파일에 포함되는 핵심어는 N(N은 자연수) 순위까지로 제한되는 것일 수 있다.
또한, 사용자로부터 디스플레이하고자 하는 웹 문서에 대한 명령 신호를 입력 받는 단계; 및 상기 입력된 신호에 따른 웹 문서를 디스플레이하는 단계를 더 포함하는 것일 수 있다.
또한, 상기 태그 정보, 매핑테이블 및 사용자 프로파일에 대한 데이터를 저장하는 단계를 더 포함하는 것일 수 있다.
본 발명의 또 다른 측면에 따르면, 본 발명은 상기 방법들 중 어느 한 방법에 의하여 디지털 처리 장치에서 실행 가능한 명령어들이 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 프로그램이 기록된 기록 매체를 제공할 수 있다.
본 발명에 따르면, 앵커 태그 및/또는 폼 태그 정보를 이용하여 개인 단위의 사용자별 취향을 빠르고 정확하게 분석할 수 있고, 이를 바탕으로 웹 서버에 사용자 취향정보를 제공함으로써 개인화된 맞춤형 검색 정보를 제공할 수 있는 효과가 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지 다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어 도면 부호에 상관없이 동일하거나 대응하는 구성 요소는 동일한 참조번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 사용자 취향정보를 제공하기 위한 전체 시스템을 개략적으로 나타낸 구성도이다.
도 1을 참조하면, 사용자 취향정보 제공 시스템은 네트워크(100), 단말 기기(110), 웹 서버(120) 및 온톨로지 서버(130)를 포함하여 구성된다.
네트워크(100)는 유무선 통신망으로서 단말 기기(110), 웹 서버(120) 및 온 톨로지 서버(130)를 연결한다. 각 단말 기기(110) 및 서버 간의 정보 교환은 미리 정하여진 통신 규약에 의하여 이루어질 수 있다. 각 서버들 및 단말 기기(110) 사이를 연결하는 네트워크(100)가 반드시 하나의 네트워크(100)일 필요는 없다.
또한, 네트워크(100)는 ADSL, VDSL, Wi-Fi, WIBRO 및 HSDPA 등의 기술에 의하여 LAN 및 WAN의 형태로 구성될 수 있고, 보안을 강화하기 위해 VPN등의 기술이 사용될 수 있다.
웹 서버(120)는 웹 서비스를 제공할 수 있는 서버로서, 단말 기기(110)에게 예컨대 웹 페이지나 그 일부분, 영상 등 웹 문서를 제공할 수 있다. 여기서, "문서"는 웹 페이지, 영상, 멀티미디어 파일, 텍스트 문서 및 PDF 등을 포함하는 서치 엔진으로 색인화 및 검색될 수 있는 임의의 형식의 매체가 될 수 있다. 이러한 "문서"라는 용어의 사용이 본 발명의 범위를 제한하기 위한 것은 아니다.
단말 기기(110)는 데스크탑, PDA, 핸드폰 등과 같은 네트워크(100) 기능을 갖는 정보통신 단말일 수 있다. 또는, 단말 기기(110)는 네트워크(100)를 통해 웹 서버(120)에 접속할 수 있는 임의의 전자 장치로 구현될 수 있으며, 예를 들어 홈페이지가 구축되어 사용자에게 컨텐츠를 서비스할 수 있는 서버급 머신으로도 구현될 수 있다.
본 실시예에서 단말 기기(110)는 유무선 네트워크(100)를 통하여 웹 서버(120)에 접속하여 웹 문서를 제공받을 수 있고, 온톨로지 서버(130)로부터 불용어를 제거하는 서비스를 제공받을 수 있다.
온톨로지 서버(130)는 웹 문서에 포함된 태그 정보로부터 검출되는 단어의 의미 분석과 불용어를 제거하는 역할을 수행할 수 있다. 온톨로지(onthology)는 단어와 관계들로 구성된 일종의 사전으로 생각할 수 있으며, 특정 도메인에 관련된 단어들이 계층적으로 표현될 수 있다.
여기서, 불용어란 한글의 조사나 영어에서 관사, 전치사와 같이 자주 등장하지만 중요하지 않고, 의미가 없는 단어를 의미한다. 예컨대, 한글의 "와/과", "을/를", 영어의 "a/an", "the" 등이 불용어로 취급될 수 있다.
본 발명의 다른 실시예에 따르면 불용어 제거 등의 동작이 단말 기기(110)에 의해 수행될 수도 있다. 즉, 단말 기기(110)는 온톨로지 서버(130)로부터 제공받은 정보(예를 들어, 불용어 리스트 등)를 이용하여 태그 정보에서 불필요한 단어를 제거하고, 필요한 핵심어들만을 정제할 수 있다.
도 2는 본 발명의 일 실시예에 따른 사용자 취향정보를 수집할 수 있는 단말 기기의 구성을 나타낸 도면이다.
도 2를 참조하면, 본 실시예에 따른 단말 기기(110)는 입력부(210), 태그 검색부(220), 태그 정보 추출부(230), 매핑테이블 작성부(240), 핵심어 검출부(250), 사용자 취향정보 관리부(260), 저장부(270) 및 출력부(280)를 포함하여 구성될 수 있다.
입력부(210)는 정보 검색을 진행하기 위한 신호, 예컨대 사용자의 질의어 입력 또는 사용자의 하이퍼링크 마우스클릭(mouse-clicking) 등을 통한 선택 신호를 입력 받는 역할을 수행할 수 있다. 이러한 입력부(210)는 예컨대 키보드, 버튼, 마 우스또는 다른 사용자 입력 도구 등을 구비할 수 있다.
태그 검색부(220)는 단말 기기(110)가 웹 서버(120)로부터 컨텐츠(웹 문서; 예컨대 웹 페이지나 그 일부분, 영상 등)를 수신하여 출력한 이후 동작할 수 있는데, 출력된 문서에 포함된 앵커 태그 및/또는 폼 태그의 전부 또는 일부를 검색할 수 있다. 태그 검색은 단말 기기(110)에 내장된 소스 분석기를 이용하여 웹 문서의 HTML 소스를 분석함으로써 행할 수 있다.
여기서, 앵커 태그(anchor tag)란 하이퍼 텍스트를 만드는 마크업 언어(HTML) 중에서 하이퍼링크(hyperlink)를 생성하는 태그이다. 하이퍼링크는 그래픽 아이콘 또는 텍스트 줄로 구현되고, 사용자는 마우스 버튼을 클릭함으로써 하이퍼링크에연결된 웹 문서로 이동할 수 있고,웹 브라우저는 대개 하이퍼링크로 표시된 웹 페이지로 변환하여 디스플레이하는 동작을 수행할 수 있다. 다른 하이퍼링크의 동작으로는 다운로드 받는 동작과 비디오를 디스플레이하는 동작 등이 있다.
강조되어 있는 개체를 '앵커(anchor)'라고 부르는데 앵커와 그 개체가 합쳐져 하이퍼텍스트 링크를 구성하게 된다. HTML에서 앵커는 구절, 이미지 및 기타 다른 모든 정보 객체에 대해 선언할 수 있다.
또한, 폼 태그(form tag)란 ASP, PSP, JSP 등 웹 프로그래밍을 할 때 데이터를 입력 받고 서버 측으로 전송하는데 필요한 데이터를 넘기는 역할을 수행하는 태그이다. 폼 태그를 이용하여 입력창, 패스워드창, 체크박스 등을 만들 수 있는데, 일반적으로 문서를 검색하는 입력창이 인풋(input) 태그와 함께 폼 태그 내부에 구현된다.
태그 정보 추출부(230)는 태그 검색부(220)에서 검색된 앵커 태그 및/또는 폼 태그로부터 태그 정보를 추출할 수 있다. 여기서, "태그 정보"란 앵커 태그 정보와 폼 태그 정보로 구분될 수 있다.
앵커 태그 정보는 하이퍼링크(hyperlink)를 생성하는 앵커 태그에 포함되는 정보로서 태그에 연결된 문서의 URL(Uniform Resource Locator), 하이퍼텍스트의 문자열 등에 해당하는 정보인 앵커 텍스트를 포함할 수 있다.
앵커 태그 정보 추출은 예를 들어 먼저 해당 태그로부터 웹 문서 소스를 추출하고, 추출된 웹 문서 소스에서 URL, 하이퍼텍스트 문자열, 질의한 문자열 등의 태그 정보를 2차적으로 추출하는 방식으로 구현될 수 있다. 앵커 태그 정보 추출 및 추출된 앵커 태그 정보의 이용에 대한 상세한 설명은 도 3 내지 5에서 후술하기로 한다.
폼 태그의 경우, 웹 프로그래밍 언어를 이용한 명령 처리부(도면에 도시되어 있지 않음)에 질의한 문자열 등의 정보 및 사용자의 질의를 처리하는 URL 구조를 포함할 수 있다.
따라서, 폼 태그는 폼 태그에서 데이터를 받아 전달할 곳을 정해주는 속성인 액션(action), 액션으로 데이터를 전달할 때 전달하는 방식을 정해주는 속성인 메소드(method) 및 인풋 태그의 유무를 추가적으로 검색하여, 사용자의 질의어와 질의어를 처리하는 URL 구조를 추출할 수 있다. 이에 대한 상세한 설명은 도 6에서 후술하기로 한다.
여기서, 질의어는 사용자가 단말 기기(110)의 입력부(210)에 키보드 등을 이 용하여 명령 처리부(도면에 도시되어 있지 않음)에 질의한 문자열 등의 텍스트 정보이다. 명령 처리부는 예를 들어 웹 프로그래밍 언어를 이용하여 구현될 수 있다.
이렇게 검출된 태그 정보는 매핑테이블을 작성하는데 이용될 수 있고, 매핑테이블은 이후 사용자 프로파일을 작성하는데 참조될 수 있다.
매핑테이블 작성부(240)는 태그 정보 추출부(230)로부터 추출된 앵커 태그 정보를 이용하여 매핑테이블을 작성하는 역할을 수행할 수 있다. 매핑테이블은 여러 가지 형태로 작성될 수 있는데, 도 5에 앵커 태그의 URL과 하이퍼링크 제목인 앵커 텍스트를 분류하여 작성된 예가 도시되어 있다. 이에 대한 상세한 설명은 후술하기로 한다.
핵심어 검출부(250)는 태그 정보 추출부(230)에서 추출한 앵커 태그 및/또는 폼 태그 정보로부터 핵심어를 검출하고, 저장부(270)에 저장하는 역할을 수행할 수 있다. 핵심어 검출부(250)는 예컨대, 온톨로지 서버(130)에 태그 정보를 송신하고 온톨로지 서버에서 검출한 핵심어를 수신받는 역할을 행할 수 있고, 또는 온톨로지 서버의 불용어 사전 등을 이용하여 핵심어 검출부(250)에서 직접 불용어를 제거할 수도 있다.
예를 들어 앵커 태그가 <a href="http://www.skku.ac.kr"> 성균관대학교 </a>의 경우, "성균관대학교"라는 단어가 핵심어로 추출될 수 있다.
또한, 앵커 텍스트의 경우 "성균관대학교"는 다른 불용어를 포함하지 않는 것으로 보고 그대로 핵심어로서 추출할 수 있을 것이다.
사용자 취향정보 관리부(260)는 단말 기기(110)에서 다음에 이동한 웹 문서 의 URL을 매핑테이블과 비교함으로써, 사용자의 취향정보를 수집하고 갱신하는 역할을 수행할 수 있다. 다음에 이동한 웹 문서란 단말 기기(110)가 현재 이후에 출력한 웹 문서라 할 것이다.
여기서, 사용자 취향정보란 단말 기기(110)에서 작성한 사용자 프로파일일 수 있다. 또한, 단말 기기(110)에서 수집한 태그 정보, 매핑테이블 및 이들의 조합 중 하나 이상을 사용자 취향정보로써 웹 서버(120)에 제공할 수 있고, 이를 바탕으로 웹 서버(120)는 사용자 프로파일을 작성할 수도 있다. 사용자 취향정보 관리부(260)에 대한 구체적인 설명은 도 7에서 설명하기로 한다.
저장부(270)는 단말 기기(110)에서 수행되는 프로세스에 의한 각종 데이터를 저장할 수 있는 매체로서, 데이터베이스를 포함할 수 있다. 예컨대, 저장부(270)는 태그 정보를 저장할 수 있고, 태그 정보를 이용하여 생성한 사용자 취향정보 관리부(260)에 의하여 추출되어 사용자 취향을 반영한 사용자 프로파일을 생성하는데 이용될 수 있는데, 이렇게 생성된 사용자 프로파일 또한 저장부(270)에 저장될 수 있다.
출력부(280)는 검색 결과를 나타내기 위하여 필요한 데이터를 시각 또는 청각으로 제공할 수 있으며, 예컨대 LCD(Liquid Crystal Display)와 같은 액정 등의 디스플레이부(도면에 도시되어 있지 않음) 또는 스피커 등의 음향부(도면에 도시되어 있지 않음)룰 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 하이퍼링크를 포함하는 웹 문서를 나타 낸도면이고, 도 4는 상기 웹 문서의 HTML 소스를 나타낸 도면이며, 도 5는 상기 HTML 소스로부터 앵커 태그 정보를 추출하여 작성한 매핑테이블을 나타낸 도면이다.
도 3을 참조하면, 단말 기기(110)에 출력된 웹 문서는 하나 이상의 하이퍼링크를 포함하여 구성될 수 있다. 도 3에 예시된 바와 같이, 하이퍼링크된 텍스트 정보는 하이퍼링크를 통해 접속되는 웹 문서의 제목에 해당되는 텍스트 정보일 수 있다. 이렇게 웹 문서에 포함된 하이퍼링크는 도 4와 같이, 웹 문서 소스에 포함되어 표시될 수 있다. 웹 문서 소스에 포함된 앵커 태크는 아래와 같이 URL 및 해당 URL 주소를 가지는 웹 사이트를 대표하여 하이퍼링크 제목으로 설정된 앵커 텍스트를 포함할 수 있다.
<a href="URL"> 앵커 텍스트 </a>
도 4에 도시된 소스 중 일 예를 들면, 앵커 태그가 <a href="/2007/WORLD/asiapct/02/27/china_pige on.reut/index.html"> Scientists command pigeons via remote control </a>인 경우, "Scientists command pigeons via remote control"을 제목으로 하는 하이퍼링크가 생성되고, 이를 사용자가 마우스 클릭하면 "/2007/WORLD/asiapct/02/27/china_pige on.reut/index.html" 주소에 해당하는 웹 사이트로 연결된다.
이중 URL과 그 URL이 연결된 하이퍼링크 제목에 상응하는 앵커 텍스트 등의 태그 정보를 추출하고 항목별로 나누어 테이블을 작성한 것이 도 5에 나타낸 매핑테이블이다.
도 5를 참조하면, 매핑테이블은 URL부와 하이퍼링크 제목에 해당하는 앵커 텍스트부로 나누어 설정될 수 있고, 이후 앵커 텍스트의 단어들은 불용어를 제거하는 과정을 거쳐 핵심어만을 추출하는 과정을 거칠 수 있다.
즉, 단말 기기(110)는 매핑테이블에 출력된 웹 문서에 포함된 태그의 전부 또는 일부에 대한 상기 태그 정보를 기록하고, 다음에 이동한 웹 문서의 URL이 매핑테이블에 포함되어 있는지를 분석할 수 있다. 따라서 매핑테이블에 다음에 이동한 웹 문서의 URL이 포함되어 있다면, 단말 기기(110)는 해당 URL에 연결된 앵커 텍스트를 파악할 수 있게 된다.
이와 같이 매핑테이블은 사용자가 선택하여 이동한 웹 문서의 하이퍼링크를 식별하거나 사용자 프로파일에 포함된 단어의 가중치를 계산하기 위하여 필요하며, 일시적으로만 저장함으로써 저장부(270)의 부담을 줄일 수 있다.
본 발명의 다른 실시예에 따르면 앵커 텍스트의 핵심어를 먼저 추출한 후, 이에 따라 매핑테이블의 앵커 텍스트부는 핵심어들로만 이루어지게 할 수도 있다. 즉, 핵심어 검출 과정은 매핑테이블 작성 전후 어느 시점에서나 수행될 수 있다.
한편 본 발명의 또 다른 실시예에 따르면, 매핑테이블에는 앵커 태그 정보 외에 폼 태그 정보가 포함될 수 있다. 즉, 단말 기기(110)는 단말 기기에 출력된 웹 문서에 포함된 태그의 전부 또는 일부에 대한 상기 태그 정보를 매핑테이블에 기록할 수도 있다.
도 6은 본 발명의 일 실시예에 따른 폼 태그 정보가 표시된 주소줄을 포함하 는 웹 문서를 나타낸 도면이다.
폼 태그의 속성으로 액션(action) 및 메소드(method)가 있는데, 액션은 폼 태그에서 전달될 파일 이름을 지정함으로써 폼 태그에서 데이터를 받아 전달할 곳을 정해주는 속성을 말하고, 메소드는 액션으로 데이터를 전달할 때 전달하는 방식을 정해주는 속성을 의미한다. 예컨대 <form action="abc.php" method="get/post">인 경우, 폼 태그에 있는 데이터들이 abc.php라는 곳에 get/post 방식으로 전달된다.
get/post는 데이터의 전송 방식을 지정하는 태그로써, 메소드의 값이라고 할 수 있다. get 방식의 경우 브라우저의 주소 줄에 입력한 매개변수 값이 보이게 되는 것이고, post 방식은 get 방식과 달리 브라우저의 주소 줄에 매개변수 값이 보이지 않는 것이다.
도 6은 메소드가 get 방식인 폼 태그를 예시한 것이다. 단말 기기(110)가 검색 엔진에서 목적하는 정보를 검색하기 위하여 입력 창(610)에 질의어인 "agent system"을 입력하면, 해당 질의어는 전달하려는 곳의 URL 뒤에 '?' 기호와 함께 추가되어 전달될 수 있다. 여기서, 질의어가 입력된 창은 폼 태그 안에서 사용되는 태그인 인풋(input) 태그에 해당할 수 있다.
단말 기기(110)는 사용자가 다음에 이동한 웹 문서의 URL이 폼 태그와 연결된 주소라면, 웹 문서의 주소줄로부터 해당 주소에 첨부된 사용자 질의어를 추출할 수 있다. 도 6에서는 단말 기기(110)는 주소줄에 기재된 "agent*system(620)"으로부터 질의어로서 "agent"및 "system"을 추출할 수 있고, 이후 추출된 단어는 핵심 어에 해당하는지를 판단 받으며, 핵심어로 판명된 경우 사용자 프로파일에 저장될 수 있다.
한편, 도시되어 있지는 않지만 단말 기기(110)가 질의어를 post 방식으로 전송하는 경우, 질의어는 데이터 바디(body) 부분에 추가되어 전달되며, 전달하려는 데이터가 내부에 있기 때문에 외부에 보이지 않게 된다.
따라서, 본 발명의 일 실시예에 따르면 질의어가 post 방식으로 전송되는 경우 단말 기기(110)는 바로 질의어를 추출할 수 없다. 그러나, 이러한 경우라도 단말 기기(110)는 웹 서버(120)에 질의어를 문의하고 그 응답을 수신 받음으로써 질의어를 파악할 수 있다.
한편, 단말 기기(110)의 액정 화면에 디스플레이 된 웹 문서에 폼 태그가 복수 개 포함되어 있는 경우라면, 앵커 태그와 같이 폼 태그 정보에 대한 매핑테이블을 작성할 수 있다.
즉, 단말 기기(110)가 복수 개의 폼 태그 중 어느 폼 태그를 통하여 이동하였는지를 식별하기 위해, 질의어와 그에 연결된 URL 정보를 앵커 태그와 같이 저장해 놓을 수 있다.
도 7은 본 발명의 일 실시예에 따른 사용자 취향정보 관리부의 구성을 나타낸 도면이다.
도 7을 참조하면 사용자 취향정보 관리부(260)는 사용자 모니터링부(710), 가중치 산정부(720) 및 사용자 프로파일부(730) 등을 포함하여 구성될 수 있다.
사용자 모니터링부(710)는 단말 기기(110)에서의 웹 문서간의 이동을 모니터링(monitoring)하는 역할을 수행할 수 있다. 또한, 사용자 모니터링부(710)는 사용자가 다음 이동한 페이지의 URL 정보를 식별하고, 매핑테이블에 같은 URL이 존재하는지, 분석된 폼 태그와 연결된 URL인지 검사할 수 있다.
구체적으로, 다음 이동한 페이지의 URL이 사용자가 이동한 페이지가 매핑테이블에 존재하는 경우에는 해당 URL과 연결된 문자열들을 수집할 수 있다. 또한, 상기 URL이 폼 태그와 연결된 URL이라면 주소에 첨부된 사용자 질의 문자를 추출할 수 있다.
따라서, 사용자 모니터링부(710)에서 사용자 선택을 모니터링함으로써, 단말 기기(110)는 사용자가 선택한 태그 정보를 정확하게 인지할 수 있게 된다.
가중치 산정부(720)는 태그 정보로부터 추출된 핵심어들을 일정한 기준에 따라 점수를 매기고 가중치를 산정하는 역할을 수행할 수 있다. 이때, 가중치 산정 방법은 다양하게 구현될 수 있는데, 이에 대한 상세한 설명은 도 8을 참조하여 후술하기로 한다.
사용자 프로파일부(730)는 핵심어 검출부(250)에서 검출된 핵심어를 이용하여 단말 기기(110) 별로 사용자 취향정보를 생성, 갱신, 관리하는 기능을 수행할 수 있다. 여기서, 사용자 프로파일은 핵심어를 비롯한 단어와 이에 대한 가중치들의 조합으로 구성될 수 있다.
사용자 프로파일은 단어 별로 부여된 가중치 및 가중치를 반영한 순위 등을 항목별로 산정하여 작성될 수 있다. 이때, 가중치는 단말 기기(110)의 실시간 동작 을 반영하여 변경될 수 있게 설정될 수 있으므로, 사용자 프로파일 순위 또한 재 반영된 가중치에 따라 실시간으로 재조정될 수 있다.
사용자 프로파일부(730)는 필요에 따라 사용자 프로파일에 포함되는 단어의 개수를 디폴트 값으로 지정하거나, 사용자가 임의로 설정하게 할 수 있다.
전술한 바와 같이 사용자 프로파일 순위가 실시간으로 재조정되는 경우이고, 사용자 프로파일에 포함되는 단어의 개수가 n개로 한정되어 있다면, 예컨대 순위가 높은 순서대로 n개까지 사용자 프로파일부(730)에 포함되게 할 수 있다.
이러한 경우, 사용자 프로파일의 순위가 n 순위 이하인 단어들은 사용자 프로파일에서 제거되고, 새로이 n 순위 이상의 단어들만이 사용자 프로파일에 포함되게 될 것이다.
이때, 사용자 프로파일에서 제거된 단어도, 저장부(270)에서 삭제되지 않고 출현 빈도 등을 계산하는데 계속 이용될 수 있다. 예를 들어, 사용자 프로파일에서 관리되는 단어의 수가 10개인 경우, 순위 내에 들지 못하였던 단어도 출현 빈도 수를 계속 카운팅하고 있기 때문에 이후 10위 내에 들게 되어 사용자 프로파일에 포함될 수 있다.
도 8은 본 발명의 일 실시예에 따른 가중치 산정 방법을 이용하여 핵심어의 순위를 나타낸 사용자 프로파일을 나타낸 도면이다.
본 발명은 단말 기기(110) 별로 개인화된 사용자 프로파일을 생성하고, 이를 바탕으로 사용자 별로 취향에 부합하는 정보를 제공하고자 하는 것이다. 특히, 단 말 기기(110)에서 태그 정보로부터 추출한 단어 별로 가중치를 부여하여 사용자의 관심 정도를 수치화하고, 이에 따라 순위를 정렬한다면 더욱 정확한 사용자 취향정보를 제공할 수 있을 것이다.
도 8을 참조하면, 사용자 프로파일은 태그 정보로부터 추출한 단어 및 이에 대한 가중치들을 이용하여 산정한 점수의 조합으로 구성되어 있다. 단어 별로 가중치 부여 및 단어 별 순위화는 다양한 형태로 사용자에게 제공될 수 있다.
예컨대, 단어의 출현 빈도가 높다는 의미는 해당 단어가 사용자에 의하여 다수 마우스 클릭되었다는 것이고, 따라서 해당 단어는 사용자의 관심이 높고 더 유용하다고 말할 수 있다. 반면에 단어의 출현 빈도가 낮다는 것은 사용자의 관심이 낮고 사용자에게는 유용하지 않다는 의미로 볼 수 있다. 그러므로, 단어의 출현 빈도가 높을수록 가중치를 부여하여, 출현 빈도가 더 낮은 단어에 비하여 더 높은 점수 및 순위를 매길 수 있다.
또한, 단말 기기(110)는 단말 기기(110)에 출력된 웹 문서에 포함되어 있었던 태그 정보이어서 매핑테이블에 포함되어 있음에도 불구하고, 사용자가 마우스 클릭하지 않은 하이퍼링크의 단어는 사용자가 인지하였음에도 선택하지 않았다는 점을 고려하여 오히려 가중치를 감소시킬 수도 있다.
예를 들어, 단말 기기(110)는 단말 기기(110)의 사용자 프로파일에 1회 포함된 단어를 0점으로 하면, 출현 빈도 수가 한 회씩 증가함에 따라 +K점을 추가할 수 있다. 또한, 단말 기기(110)는 단말 기기(110)에 일단 디스플레이 된 웹 문서에 기재되어 있어 매핑테이블에 포함되어 있는 단어임에도 불구하고, 사용자가 선택하여 이동한 URL과 연결된 하이퍼링크 제목에 포함되지 않은 단어는 -L점으로 점수를 감소시킬 수 있다.
이러한 경우, 한 단어의 점수는 다음과 같이 산정될 수 있다.
점수 = (a x K) - (b x L)
여기서, a는 특정 단어가 마우스 클릭된 회수를 나타내고, b는 특정 단어가 매핑테이블에 포함되어 있었음에도 마우스 클릭되지 않은 회수를 나타낸다. 또한, K는 L보다 크거나 같게 하여 사용자의 선택을 받은 단어를 더욱 가중치를 두도록 계산할 수도 있다.
본 발명의 다른 실시예에 따르면, 단말 기기(110)는 사용자가 선택한 회수가 증가할수록 사용자의 관심의 정도가 매우 큰 것으로 의미를 두고, 다음과 같이 출현 빈도에 따라 기하급수적으로 점수가 커지도록 가중치를 산정할 수도 있다.
점수 = Ka - (b x L)
여기서, a, b는 전술한 바와 같다.
본 발명의 또 다른 실시예에 따르면, 단말 기기(110)는 사용자 프로파일과 매핑테이블에 존재하지만 사용자가 이동하지 않은 URL에 포함되는 단어들에 대한 가중치를 감소시킴으로써 사용자의 취향 변화를 동적으로 반영시킬 수 있다.
본 발명의 또 다른 실시예에 따르면, 점수와 순위는 출현 빈도에 비례하게만 산정될 수도 있다.
또한, 도 8을 참조하면 사용자 프로파일에는 1 순위부터 N(N은 자연수) 순위 까지의 단어를 포함하고 있을 수 있다. 즉, 사용자 프로파일에 포함되는 단어의 개수는 필요에 따라 사용자나 개발자가 임의로 지정하고, 임계치 이하의 단어는 사용자 프로파일에서 제거시킬 수 있다.
이는 단말 기기(110)에서 사용자의 취향정보를 실시간으로 분석하고, 이를 반영하여 순위를 재정렬함으로써 최근의 사용자 관심 분야를 정확하게 제공할 수 있다는 점에서 그 의의가 있다. 또한, 이렇게 사용자 프로파일에 저장되는 단어의 수를 한정함으로써, 저장부(270)의 부하를 감소시킨다는 것도 본 발명의 유리한 점에 해당한다.
도 9는 본 발명의 일 실시예에 따른 단말 기기에서 사용자 취향정보를 제공하는 방법을 나타낸 순서도이다.
단계 910에서 단말 기기(110)는 단말 기기(110)의 출력부(280)에 출력된 웹 문서의 HTML 소스를 분석한다. 단계 920에서 단말 기기(110)는 단계 910에서 분석한 HTML 소스 중 앵커 태그 및/또는 폼 태그를 검색하여 추출할 수 있다.
단말 기기(110)는 단계 920에서 추출된 태그가 앵커 태그인지 폼 태그인지를 파악하고, 추출된 태그가 앵커 태그인 경우 단말 기기(110)는 단계 930에서 앵커 태그 정보를 추출할 수 있다.
앵커 태그 정보는 앵커 태그와 연결된 URL과 하이퍼텍스트 문자열인 앵커 텍스트일 수 있다. 이후, 단말 기기(110)는 단계 940에서 추출된 URL과 앵커 텍스트를 이용하여 매핑테이블을 작성할 수 있다.
한편, 단계 920에서 추출된 태그가 폼 태그인 경우, 단말 기기(110)는 단계 935에서 폼 태그 정보를 추출할 수 있고, 이후 단말 기기(110)는 단계 945에서 폼 태그 내부 질의어를 처리하는 URL을 추출할 수 있다.
단계 950에서 단말 기기(110)가 다음에 이동한 웹 문서의 URL을 분석할 수 있다. 이후, 단말 기기(110)는 단계 960에서 이동한 웹 문서의 URL이 앵커 태그와 연결된 것인지 폼 태그와 연결된 것인지를 판단할 수 있다.
판단 결과 앵커 태그에 연결된 URL인 경우, 단말 기기(110)는 단계 970에서 매핑테이블에 포함된 URL과 비교하고, 매핑테이블에 포함된 URL이라면 해당 URL과 연결된 하이퍼링크 제목인 앵커 텍스트를 추출 및 분석할 수 있다.
단계 960에서의 판단 결과 이동한 웹 문서의 URL이 폼 태그와 연결된 것이라면, 단말 기기(110)는 단계 975에서 해당 URL과 연결된 질의어를 추출할 수 있다.
구체적으로, 질의어가 get 방식으로 전송된 것이라면 단말 기기(110)는 액정 화면의 주소줄에 표시된 질의어를 스스로 추출할 수 있다. 그러나, 단말 기기(110)는 질의어를 post 방식으로 전송한 것이라면, 도시되어 있지는 않지만 웹 서버(120)로부터 이동한 웹 문서의 URL에 연결된 질의어에 대한 정보를 문의 및 응답 받는 단계를 더 포함할 수 있다.
이후, 단말 기기(110)는 단계 980에서 추출된 문자 정보로부터 온톨로지 서버(130) 등의 불용어 사전을 이용해 불필요한 단어를 제거할 수 있다. 이렇게 함으로써, 앵커 태그 정보로부터 핵심어를 추출할 수 있게 된다.
단계 990에서 단말 기기(110)는 상기 추출된 핵심어를 이용하여 사용자 프로 파일을 생성할 수 있고, 이미 생성된 사용자 프로파일 정보를 갱신할 수 있다. 또한, 사용자 프로파일에는 추출된 핵심어를 출현 빈도 또는 가중치를 반영한 순위와 함께 기록할 수 있다.
도 10은 본 발명의 일 실시예에 따른 단말 기기에서 웹 서버로 사용자 취향정보를 제공하는 방법을 나타낸 순서도이다.
도 10을 참조하면, 단말 기기(110)는 단계 1010에서 사용자로부터 요청된 질의어에 대한 검색 정보를 웹 서버(120)로 요청할 수 있다. 이후, 웹 서버(120)는 단계 1020에서 검색 요청된 질의어와 관련된 컨텐츠를 제공하기 전에 사용자 취향정보를 단말 기기(110)로 요청할 수 있다.
단말 기기(110)에 사용자 취향정보가 존재한다면, 단말 기기(110)는 단계 1030에서 내장된 사용자 취향정보를 웹 서버(120)로 전송할 수 있다. 여기서, 단말 기기(110)가 전송할 사용자 취향정보는 사용자 프로파일일 수 있다.
단계 1040에서 웹 서버(120)는 단말 기기(110)가 전송한 사용자 취향정보를 바탕으로 제공할 컨텐츠를 개인화하고, 이를 단말 기기(110)에 전송할 수 있다. 여기서, 컨텐츠를 개인화한다는 것은 검색 요청된 질의어와 관련된 수 많은 컨텐츠를 사용자 취향정보에 부합하도록 순위를 정하여 개인마다 가장 관심 있는 정보를 위주로 제공한다는 것이다. 예를 들어, 사용자가 입력한 검색 키워드에 상응하는 검색 결과를 단말 기기(110)로 제공함에 있어 사용자 취향정보에 부합하는 검색 결과 항목이 먼저 제시되도록 할 수 있을 것이다.
단말 기기(110)는 단계 1050에서 웹 서버(120)로부터 전송 받은 컨텐츠를 액정 화면에 출력할 수 있고, 이후 단말 기기(110)의 사용자 취향정보 관리부(260)는 단계 1060에서 사용자의 활동을 모니터링하며 사용자 취향정보를 갱신할 수 있다. 즉, 전술한 바와 같이 사용자의 웹 문서 이동을 반영하여 실시간으로 사용자 프로파일을 갱신할 수 있다.
만일 단말 기기(110)에 사용자 취향정보가 존재하지 않는 경우라면, 웹 서버(120)는 검색 요청된 질의어와 관련된 일반적인 컨텐츠를 단말 기기(110)에 제공할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드디스크, 광자기디스크 등)에 저장될 수 있다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 사용자 취향정보를 제공하기 위한 전체 시스템을 개략적으로 나타낸 구성도.
도 2는 본 발명의 일 실시예에 따른 사용자 취향정보를 수집할 수 있는 단말 기기의 구성을 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 하이퍼링크를 포함하는 웹 문서를 나타낸 도면.
도 4는 상기 웹 문서의 HTML 소스를 나타낸 도면.
도 5는 상기 HTML 소스로부터 앵커 태그 정보를 추출하여 작성한 매핑테이블을 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 폼 태그 정보가 표시된 주소줄을 포함하는 웹 문서를 나타낸 도면.
도 7은 본 발명의 일 실시예에 따른 사용자 취향정보 관리부의 구성을 나타낸 도면.
도 8은 본 발명의 일 실시예에 따른 가중치 산정 방법을 이용하여 핵심어의 순위를 나타낸 사용자 프로파일을 나타낸 도면.
도 9는 본 발명의 일 실시예에 따른 단말 기기에서 사용자 취향정보를 제공하는 방법을 나타낸 순서도.
도 10은 본 발명의 일 실시예에 따른 단말 기기에서 웹 서버로 사용자 취향정보를 제공하는 방법을 나타낸 순서도.
<도면의 주요 부분에 대한 부호 설명>
100: 네트워크 110: 단말 기기
120: 웹 서버 130: 온톨로지 서버
210: 입력부 220: 태그 검색부
230: 태그 정보 추출부 240: 매핑테이블 작성부
250: 핵심어 검출부 260: 사용자 취향정보 관리부
270: 저장부 280: 출력부
710: 사용자 모니터링부 720: 가중치 산정부
730: 사용자 프로파일부
Claims (29)
- 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말 기기에 있어서,상기 단말 기기에 출력된 웹 문서에 포함된 앵커 태그(anchor tag), 폼 태그(form tag) 및 이들의 조합 중 하나 이상의 태그를 검색하는 태그 검색부;상기 검색된 태그로부터 태그 정보를 추출하는 태그 정보 추출부;상기 태그 정보로부터 핵심어를 검출하는 핵심어 검출부; 및상기 핵심어를 이용하여 생성된 사용자 프로파일을 포함하는 사용자 취향정보를 수집하는 사용자 취향정보 관리부를 포함하는 단말 기기.
- 제1항에 있어서,상기 태그 정보는 상기 앵커 태그와 상기 폼 태그를 포함하고,상기 앵커 태그는 앵커 텍스트 및 그와 연결된 URL이고, 상기 폼 태그는 질의어 및 그와 연결된 URL인 것을 특징으로 하는 단말 기기.
- 제 1항에 있어서,상기 웹 문서에 포함된 태그 정보의 전부 또는 일부를 기록한 매핑테이블을 작성하는 매핑테이블 작성부를 더 포함하는 것을 특징으로 하는 단말 기기.
- 제 1항에 있어서,상기 핵심어 검출부는 상기 핵심어를 검출하기 위해 상기 태그 정보에 포함된 단어들 중 불용어를 제외시키는 것을 특징으로 하는 단말 기기.
- 제 1항에 있어서,상기 사용자 취향정보 관리부는상기 검출된 핵심어 별로 가중치를 산정하는 가중치 산정부; 및상기 핵심어 및 이에 대한 가중치를 반영한 점수의 조합으로 구성된 사용자 프로파일을 작성하는 사용자 프로파일부를 포함하는 것을 특징으로 하는 단말 기기.
- 제 5항에 있어서,상기 사용자 취향정보 관리부는웹 문서간의 이동을 모니터링(monitoring)하는 사용자 모니터링부를 더 포함하는 것을 특징으로 하는 단말 기기.
- 제 5항에 있어서,상기 가중치는 핵심어의 출현 빈도가 증가함에 따라 가산되는 것을 특징으로 하는 단말 기기.
- 제 5항에 있어서,상기 가중치는 매핑테이블 또는 사용자 프로파일에 존재함에도 불구하고 사용자가 선택하지 않은 핵심어에 대하여 감산되는 것을 특징으로 하는 단말 기기.
- 제 5항에 있어서,상기 사용자 프로파일에 포함되는 핵심어는 상기 가중치에 따른 점수에 상응하게 순위화되는 것을 특징으로 하는 단말 기기.
- 제 9항에 있어서,상기 사용자 프로파일에 포함되는 핵심어는 N(N은 자연수) 순위까지로 제한되는 것을 특징으로 하는 단말 기기.
- 제 1항에 있어서,사용자로부터 디스플레이하고자 하는 웹 문서에 대한 명령 신호를 입력 받는 입력부; 및상기 입력된 신호에 따른 웹 문서를 디스플레이하는 출력부를 더 포함하는 것을 특징으로 하는 단말 기기.
- 제 1항에 있어서,상기 태그 정보, 매핑테이블 및 사용자 프로파일에 대한 데이터를 저장하는 저장부를 더 포함하는 것을 특징으로 하는 단말 기기.
- 단말 기기에서 태그 정보를 이용하여 사용자 취향정보를 수집하는 방법에 있어서,상기 단말 기기에 출력된 웹 문서의 HTML 소스를 분석하여 상기 웹 문서에 포함된 앵커 태그, 폼 태그 및 이들의 조합 중 하나 이상의 태그를 검색하는 단계;상기 검색된 태그의 태그 정보를 추출하는 단계;상기 태그 정보로부터 핵심어를 검출하는 단계; 및상기 핵심어를 이용하여 생성된 사용자 프로파일을 포함하는 사용자 취향정 보를 수집하는 단계를 포함하는 사용자 취향정보 수집 방법.
- 제13항에 있어서,상기 태그 정보는 상기 앵커 태그와 상기 폼 태그를 포함하고,앵커 태그는 앵커 텍스트 및 그와 연결된 URL이고,폼 태그는 질의어 및 그와 연결된 URL인 것을 특징으로 하는 방법.
- 제 13항에 있어서,상기 웹 문서에 포함된 태그의 전부 또는 일부에 대한 상기 태그 정보를 기록한 매핑테이블을 작성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 15항에 있어서,상기 단말기기가 다음 웹 문서를 출력하는 단계;상기 다음 웹 문서의 URL을 획득하는 단계;상기 다음 웹 문서의 URL이 앵커 태그와 연결된 것인지 폼 태그와 연결된 것인지를 판단하는 단계; 및상기 다음 웹 문서의 URL이 매핑테이블에 포함된 URL이라면, 상기 URL에 상 응하는 앵커 텍스트 또는 질의어를 추출하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 13항에 있어서,상기 핵심어를 검출하는 단계는상기 태그 정보에 포함된 단어들 중 불용어를 제외시키고 핵심어를 검출하는 것을 특징으로 하는 방법.
- 제 13항에 있어서,상기 사용자 취향정보를 수집하는 단계는상기 검출된 핵심어 별로 가중치를 산정하는 단계; 및상기 핵심어 및 이에 대한 가중치를 반영한 점수의 조합으로 구성된 사용자 프로파일을 작성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 18항에 있어서,상기 취향정보를 수집하는 단계는상기 웹 문서간의 이동을 모니터링(monitoring)하는 사용자 단계를 더 포함 하는 것을 특징으로 하는 방법.
- 제 18항에 있어서,사용자로부터 입력 받은 질의어에 대한 검색 정보를 웹 서버로 요청하는 단계;상기 웹 서버로부터 상기 사용자 취향정보를 요청 받는 단계; 및상기 웹 서버로 상기 사용자 취향정보를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 20항에 있어서,상기 웹 서버로부터 상기 사용자 취향정보를 바탕으로 선택된 검색 정보를 전송 받는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 20항에 있어서,상기 사용자 취향정보는 상기 단말 기기에서 작성한 사용자 프로파일인 것을 특징으로 하는 방법.
- 제 18항에 있어서,상기 가중치는 핵심어의 출현 빈도가 증가함에 따라 가산되는 것을 특징으로 하는 방법.
- 제 18항에 있어서,상기 가중치는 매핑테이블 또는 사용자 프로파일에 존재함에도 불구하고 사용자가 선택하지 않은 핵심어에 대하여 감산되는 것을 특징으로 하는 방법.
- 제 18항에 있어서,상기 사용자 프로파일에 포함되는 핵심어는 상기 가중치에 따른 점수에 상응하게 순위화되는 것을 특징으로 하는 방법.
- 제 25항에 있어서,상기 사용자 프로파일에 포함되는 핵심어는 N(N은 자연수) 순위까지로 제한되는 것을 특징으로 하는 방법.
- 제 13항에 있어서,사용자로부터 디스플레이하고자 하는 웹 문서에 대한 명령 신호를 입력 받는 단계; 및상기 입력된 신호에 따른 웹 문서를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 13항에 있어서,상기 태그 정보, 매핑테이블 및 사용자 프로파일에 대한 데이터를 저장하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제13항 내지 제28항 중 어느 한 항의 방법에 의하여 디지털 처리 장치에서 실행 가능한 명령어들이 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 프로그램이 기록된 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070066658A KR101103766B1 (ko) | 2007-07-03 | 2007-07-03 | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 |
US12/040,714 US20090012937A1 (en) | 2007-07-03 | 2008-02-29 | Apparatus, method and recorded medium for collecting user preference information by using tag information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070066658A KR101103766B1 (ko) | 2007-07-03 | 2007-07-03 | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090003739A true KR20090003739A (ko) | 2009-01-12 |
KR101103766B1 KR101103766B1 (ko) | 2012-01-12 |
Family
ID=40222238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070066658A KR101103766B1 (ko) | 2007-07-03 | 2007-07-03 | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20090012937A1 (ko) |
KR (1) | KR101103766B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583641B2 (en) | 2007-08-30 | 2013-11-12 | Samsung Electronics Co., Ltd. | Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile |
KR20230013462A (ko) * | 2021-07-19 | 2023-01-26 | 주식회사 자이솜 | 데이터 수집 방법 및 이것이 적용되는 데이터 수집 시스템 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110153509A1 (en) | 2005-05-27 | 2011-06-23 | Ip Development Venture | Method and apparatus for cross-referencing important ip relationships |
US8793614B2 (en) | 2008-05-23 | 2014-07-29 | Aol Inc. | History-based tracking of user preference settings |
US20140142920A1 (en) * | 2008-08-13 | 2014-05-22 | International Business Machines Corporation | Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems |
US20100131513A1 (en) | 2008-10-23 | 2010-05-27 | Lundberg Steven W | Patent mapping |
US8583725B2 (en) | 2010-04-05 | 2013-11-12 | Microsoft Corporation | Social context for inter-media objects |
US9904726B2 (en) | 2011-05-04 | 2018-02-27 | Black Hills IP Holdings, LLC. | Apparatus and method for automated and assisted patent claim mapping and expense planning |
US20130085946A1 (en) | 2011-10-03 | 2013-04-04 | Steven W. Lundberg | Systems, methods and user interfaces in a patent management system |
KR101696026B1 (ko) * | 2014-08-28 | 2017-01-12 | 한국디자인진흥원 | 오픈 응용프로그램 인터페이스를 이용한 디자인트랜드정보제공방법 |
KR102670058B1 (ko) | 2023-11-20 | 2024-05-28 | 주식회사 넷스루 | 로그의 관리를 위한 사용자 인터페이스를 제공하기 위한 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
KR20020018321A (ko) * | 2000-09-01 | 2002-03-08 | 김종우 | 인터넷 맞춤형 정보 제공방법 및 시스템 |
KR20020025341A (ko) * | 2000-09-28 | 2002-04-04 | 양태연 | 인터넷 쇼핑몰 구축을 위한 개별화된 에이전트 엔진을구축하는 장치 및 그 서비스 방법 |
US7356530B2 (en) * | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US20040205558A1 (en) * | 2001-10-18 | 2004-10-14 | Ibm Corporation | Method and apparatus for enhancement of web searches |
JP2003316824A (ja) | 2002-04-24 | 2003-11-07 | Toshiba Corp | 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法 |
US20050027670A1 (en) * | 2003-07-30 | 2005-02-03 | Petropoulos Jack G. | Ranking search results using conversion data |
WO2007001247A2 (en) * | 2004-06-02 | 2007-01-04 | Yahoo! Inc. | Content-management system for user behavior targeting |
US20050283470A1 (en) * | 2004-06-17 | 2005-12-22 | Or Kuntzman | Content categorization |
KR100611097B1 (ko) * | 2004-12-06 | 2006-08-09 | 한국전자통신연구원 | 인터넷 검색 내역과 tv 시청 내역을 이용한 방송프로그램 추천 장치 및 그 방법 |
US7788253B2 (en) * | 2006-12-28 | 2010-08-31 | International Business Machines Corporation | Global anchor text processing |
US8595635B2 (en) * | 2007-01-25 | 2013-11-26 | Salesforce.Com, Inc. | System, method and apparatus for selecting content from web sources and posting content to web logs |
US7930208B2 (en) * | 2007-03-30 | 2011-04-19 | Wmode Incorporated | Method and system for delivery of advertising content in short message service (SMS) messages |
US9251266B2 (en) * | 2008-07-03 | 2016-02-02 | International Business Machines Corporation | Assisting users in searching for tagged content based on historical usage patterns |
-
2007
- 2007-07-03 KR KR1020070066658A patent/KR101103766B1/ko not_active IP Right Cessation
-
2008
- 2008-02-29 US US12/040,714 patent/US20090012937A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583641B2 (en) | 2007-08-30 | 2013-11-12 | Samsung Electronics Co., Ltd. | Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile |
KR20230013462A (ko) * | 2021-07-19 | 2023-01-26 | 주식회사 자이솜 | 데이터 수집 방법 및 이것이 적용되는 데이터 수집 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20090012937A1 (en) | 2009-01-08 |
KR101103766B1 (ko) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101103766B1 (ko) | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 | |
KR20090006464A (ko) | 사용자 맞춤형 컨텐츠 제공 장치, 그 방법 및 기록매체 | |
US9367588B2 (en) | Method and system for assessing relevant properties of work contexts for use by information services | |
US8650483B2 (en) | Method and apparatus for improving the readability of an automatically machine-generated summary | |
US8978033B2 (en) | Automatic method and system for formulating and transforming representations of context used by information services | |
JP5608286B2 (ja) | 無限ブラウズ | |
KR101191531B1 (ko) | 인라인 문맥 질의들을 사용하는 검색 시스템들 및 방법들 | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
KR101060594B1 (ko) | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 | |
US20080294619A1 (en) | System and method for automatic generation of search suggestions based on recent operator behavior | |
US20140032529A1 (en) | Information resource identification system | |
JP5084858B2 (ja) | サマリ作成装置、サマリ作成方法及びプログラム | |
JP2007527558A (ja) | ウェブサイトなどの情報源によるナビゲーション | |
CN107016020A (zh) | 利用垂直建议辅助搜索请求的系统和方法 | |
WO2006012120A2 (en) | Results based personalization of advertisements in a search engine | |
CN101118560A (zh) | 关键词输出设备和关键词输出方法 | |
JP2015525929A (ja) | 検索品質を改善するための重みベースのステミング | |
JP2008071259A (ja) | ブックマーク・タグ設定装置 | |
US20090063959A1 (en) | Document creation support system | |
JP2007072646A (ja) | 検索装置、検索方法およびプログラム | |
US20130031075A1 (en) | Action-based deeplinks for search results | |
KR100455439B1 (ko) | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
JP5777663B2 (ja) | 検索支援装置及び検索支援プログラム | |
JP4842921B2 (ja) | 検索システムおよびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
AMND | Amendment | ||
B601 | Maintenance of original decision after re-examination before a trial | ||
J301 | Trial decision |
Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20090724 Effective date: 20110422 |
|
S901 | Examination by remand of revocation | ||
E902 | Notification of reason for refusal | ||
GRNO | Decision to grant (after opposition) | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |