KR20220070824A - 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법 - Google Patents

비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법 Download PDF

Info

Publication number
KR20220070824A
KR20220070824A KR1020200157787A KR20200157787A KR20220070824A KR 20220070824 A KR20220070824 A KR 20220070824A KR 1020200157787 A KR1020200157787 A KR 1020200157787A KR 20200157787 A KR20200157787 A KR 20200157787A KR 20220070824 A KR20220070824 A KR 20220070824A
Authority
KR
South Korea
Prior art keywords
word
product
attribute
dictionary
product attribute
Prior art date
Application number
KR1020200157787A
Other languages
English (en)
Other versions
KR102449572B1 (ko
Inventor
하태빈
최서희
박호진
안영민
채종현
Original Assignee
(주)아이브릭스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이브릭스 filed Critical (주)아이브릭스
Priority to KR1020200157787A priority Critical patent/KR102449572B1/ko
Publication of KR20220070824A publication Critical patent/KR20220070824A/ko
Application granted granted Critical
Publication of KR102449572B1 publication Critical patent/KR102449572B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 관합니다.
본 발명은 상품의 속성(상품명, 가격, 판매량 등)과 상품 사용 후기, 셀링 포인트 등의 비정형 텍스트를 통해 커머스 딥메타 정보를 추출하고 이를 기반으로 상품 분류, 검색, 추천 등을 위한 상품을 프로파일링하는 시스템에 대한 것입니다. 특히 본 발명은 상품의 속성이 될 수 있는 사전을 미리 구축하고 이를 이용하여 상기한 알고리즘 등을 사용하지 않고도 길이가 긴 텍스트에 대해 핵심 키워드를 고속으로 추출하는 시스템을 제안합니다.

Description

비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법{THE KEYWORDS EXTRACTION METHOD FOR UNSTRUCTURED DATA USING PROPERTY DICTIONARY OF GOODS}
본 발명은 언어처리 기술에 관하며, 특히 비정형 텍스트를 분석하고 처리하는 방법에 관한다.
문서 분석을 위해 문장에서 키워드를 추출한다. 문장에서 키워드를 추출하기 위해서는 일반적으로 형태소 분석기로 문서 내의 문장들에 대한 형태소 분석을 수행한다. 형태소 분석을 통해 명사를 추출하고 띄어쓰기 및 불용어(stopword) 제거 등의 과정을 거친다.
또한 문장 내의 단어들의 서브스트링(substring)으로 단어 그래프나 문장 그래프를 구축한 뒤 페이지랭크(PageRank) 등으로 문서에 상대적 중요도에 따라 가중치를 부여하는 그래프 랭킹 알고리즘을 이용하는 방법도 알려져 있다.
그런데 그래프 랭킹 알고리즘의 경우 추출된 키워드나 문장의 랭크 값으로 키워드 벡터를 생성하고 필요에 따라 유사도를 비교하는 알고리즘을 사용하게 된다.
위와 같은 방법들은 문서를 분석하여 키워드를 추출하는 핵심 모듈을 실행하기 이전에 소모되는 리소스가 크다는 문제점이 있었다. 특히 상품 후기 또는 상품의 특성과 같이 길이가 긴 텍스트에 대해서는 텍스트의 길이에 비례하여 처리 시간이 기하급수적으로 늘어나는 부작용이 생긴다. 특히 비정형 텍스트에 대한 키워드 추출은 더욱 어렵다.
본 발명의 발명자들은 위와 같은 문제점을 해결하기 위하여 오랫동안 연구하고 노력한 끝에 본 발명을 완성하기에 이르렀다.
본 발명의 발명자들은, 길이가 긴 텍스트에 대해 핵심 키워드를 고속으로 추출하는 방법으로서, 상품의 속성이 될 수 있는 사전을 미리 구축한 다음에 이를 이용하되, 앞에서 언급한 종래의 알고리즘을 사용하지 않는 방법론에 대해 토론하면서 함께 연구하게 되었다. 키워드 추출을 위한 대부분의 알고리즘들은 문장이나 문서를 수치화하는 작업들이 필요하고 수치화된 데이터를 이용하기 위한 자원의 소모가 크다는 것이 우리 발명자들의 컨센서스였다.
요컨대 본 발명의 목적은 단어들에 대한 전/후처리 작업들을 하지 않고 구축된 사전과 본 명세서에서 개시하는 알고리즘을 이용하여 키워드를 추출하는 시스템 및 방법을 구현하는 데 있다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.
전술한 과제를 해결하기 위하여 본 발명의 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법은 컴퓨터 장치에 의해 실행되는 고속구문추출장치의 속성 단어 검출 모듈이 상품 관련 데이터인 수집된 입력문서에서 상품의 속성이 되는 단어를 추출하여 상품 속성 사전을 미리 구축하고, 구축된 상기 상품 속성 사전을 이용하여 상기 입력문서 내의 모든 문장에 대해 상기 상품 속성 사전에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하고,
상기 고속구문추출장치의 키워드 추출 모듈이 상기 오프셋 테이블과 미리 정의된 결합 제약 조건을 이용하여 상기 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 키워드 탐색을 실시한 후, 단어가 상기 입력문서 내의 어떤 필드에 나타나는지에 따라 미리 부여된 필드별 가중치를 적용하여 산출된 스코어 중 높은 스코어가 부여된 복수의 키워드들을 대표 키워드 결과로 생성하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 상품 속성 사전은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와 상기 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류하며, 수식어보다 기준어에 더 높은 가중치가 부여되어 있는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 오프셋 테이블은 복수의 속성 단어를 포함하며, 속성 단어마다 그 단어의 시작 위치 및 끝 위치와 해당 속성 단어의 가중치를 적용하여 테이블을 구성한 것이다.
또한, 본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 상품 속성 사전은 등록되어 있는 단어가 속하는 속성마다 속성별 가중치가 미리 부여되어 있는 것이 좋다.
본 발명은 자원의 소모를 최소화하면서 미리 구축된 감성 사전을 이용하여 고속으로 키워드 추출을 수행할 수 있는 장점이 있다. 이러한 감성 사전은 본 명세서 상품 속성 사전으로 표혀되어 있다. 또한 사전 구축은 카테고리 추가/삭제 및 엔트리의 수정을 통해 유연한 확장성을 제공할 수 있으며, 블랙리스트를 이용하여 단어의 추출 여부 제어도 가능하다. 물론 사전 구축 작업에 비용과 시간이 소요된다. 하지만 일단 감성 사전을 잘 구축해 놓으면, 구축된 사전을 이용하는 것만으로도 사용자가 정의한 결합 제약에 따라 빠른 키워드 추출이 가능하다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 상품 속성 사전 기반 키워드 추출 시스템을 예시한다.
도 3은 본 발명의 일 예로서 상품 속성 사전의 '상품' 카테고리 구성을 예시한다.
도 4는 본 발명의 일 예로서 미리 등록되는 사전 카테고리의 속성별 가중치를 나타낸다.
도 5는 본 발명에 따른 오프셋(offset) 테이블의 구성을 예시한다.
도 6은 미리 등록되어 있는 필드 별 가중치 테이블을 예시한다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
컴퓨터 장치(100)는 문서 수집 시스템(101)에서 비정형 데이터를 수집해서 문장 분석을 실행하는 프로세서 기능을 하는 장치이다. 바람직한 어느 실시예에서는 하나 이상의 서버 장치로 이해될 수 있다. 바람직한 다른 실시예에서는 관리자 단말일 수도 있다. 또한 컴퓨터 장치(100)는 하나 이상의 하드웨어/소프트웨어 장비로 구성되며, 비정형 데이터가 보관되어 있는 데이터베이스에 액세스하여 데이터를 수집, 분석, 정제, 분류하는 등의 기능을 처리한다. 컴퓨터 장치(100)에는 다양한 소프트웨어 모듈들이 설치되어 있다. 본 발명의 구성을 보다 편의적으로 설명하기 위해서 도면에서는 그 중 특히 고속구문추출장치(110)를 나타내고 있다. 고속구문추출장치(110)는 데이터베이스에 저장되어 있는 비정형 데이터를 수집해서 분석하고 상품 속성 사전을 구축하는 모듈, 구축된 상품 속성 사전을 이용하여 오프셋 테이블을 생성하는 모듈, 대표 키워드들을 추출하는 모듈을 포함한다. 이들 모듈의 구성과 기능에 대해서는 아래에서 다시 설명한다. 또한 컴퓨터 장치(100)는 비정형 데이터를 분석해서 얻은 결과를 데이터베이스(130)에 보관할 수도 있다.
문서 수집 시스템(101)은 네트워크를 통해 다수의 사용자 단말(10, 10…)로부터 비정형 데이터가 수집되는 시스템이다. 바람직한 어느 실시예에서는 상품정보를 제공하거나 판매하는 커머스 사이트로 이해될 수 있다. 상품명, 분류명, 가격, 판매량 등의 상품의 속성에 관한 데이터뿐만 아니라, 사용자들이 시스템에 업로드하는 상품 사용 후가, 셀링 포인트 등의 비정형 데이터가 수집된다. 위와 같은 비정형 데이터는 상품 관련 데이터이며, 고속구문추출장치(110)의 관점에서는 입력 문서가 된다. 커머스 사이트로서의 문서 수집 시스템의 구성과 관리에 대해서는 본 발명의 기술사상과는 직접적인 관련이 없으므로 자세한 설명은 생략한다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 상품 속성 사전(120) 기반의 키워드 추출 시스템을 프로세스 관점으로 개략적으로 나타내는 도면이다.
상품 관련 데이터인 수집된 입력문서(1)가 고속구문추출장치(110)로 전달된다. 그러면 고속구문추출장치(110)는 이 입력문서(1)에서 대한 본 발명의 분석 및 처리 작업을 실행한 후에 핵심 키워드(2)를 추출해서 출력값으로 내보내게 된다.
본 발명에서는 특히 상품 속성 사전(120)을 미리 구축하여 입력문서(1)에 포함되어 있는 단어 및 문장을 분석할 때 이 상품 속성 사전(120)을 이용한다는 점에 있다. 그러므로 우리는 상품 속성 사전(120)이 무엇이며 어떻게 활용되는지를 보다 구체적으로 설명해야 한다.
도시되어 있는 것처럼, 고속구문추출장치(110)는 속성 단어 검출 모듈(112) 및 키워드 추출 모듈(114)로 이루어져 있다.
속성 단어 검출 모듈(112)은 상품의 속성이 되는 단어를 추출하여 상품 속성 사전(120)을 미리 구축하는 프로세스와, 구축된 상품 속성 사전(120)을 이용하여 입력문서(1) 내의 모든 문장에 대해 상품 속성 사전(120)에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하는 프로세스를 실행한다.
상품 속성 사전(120)은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와, 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류된다. 수식어보다 기준어에 더 높은 가중치가 부여된다.
기준어 속성 카테고리에는, 전술한 문서 수집 시스템이 의류 상품을 판매하는 웹 사이트에 기반한다고 가정할 때, 예컨대 "블라우스", "룩", "핏", "무늬" 등 보편적인 의류 상품을 지칭하는 단어 또는 차림새, 이미지 등 의류 상품의 외관 속성을 지니는 단어에 해당하는 단어들이 포함된다.
수식어 속성 카테고리에는 예컨대 "소재", "색상", "크기" 등에 관해서 기준어를 수식할 수 있는 단어들이 분류되어 포함된다.
상품 속성 사전의 각 카테고리의 엔트리 구성은 해당 카테고리의 가중치, 기준어 여부, 단독 추출 여부 등 카테고리 고유의 특징들을 포함하며, 하나의 엔트리에는 대표어와 유의어도 함께 포함한다.
도 3 및 도 4는 각각 상품 속성 사전의 '상품' 카테고리 구성을 예시하는 테이블(121), 상품 속성 사전의 속성별 가중치를 미리 설정하고 있는 테이블(123)을 예시적으로 나타낸다.
위와 같은 테이블들로 미리 상품 속성 사전을 모두 구축한 다음에, 속성 단어 검출 모듈은 입력 문서 내의 모든 문장들에 대해 첫 음절부터 시작하여 마지막 음절까지 탐색하면서 상품 속성 사전 내의 단어가 검색된 경우에 해당 단어의 시작 위치, 끝 위치, 단어를 테이블에 정하는 과정을 거쳐 오프셋 테이블을 생성한다. 즉, 오프셋 테이블은 문장에서 속성 단어가 나타난 위치, 즉 단어의 시작 위치와 끝 위치, 그리고 도 4에서 예시하는 바와 같은 속성 단어로 구성된다. 탐색하는 과정에서 사전에 있는 최장 단어 길이보다 탐색하는 단어가 긴 경우는 탐색을 종료한다.
아래와 같은 예문이 있다고 가정한다
예문 1: 라이트 레드 줄지 원피스
이 예문 1의 위치와 음절은 아래의 표 1과 같다.
위치 0 1 2 3 4 5 6 7 8 9 10 11 12
음절
위와 같은 예문 1에 대한 오프셋 테이블(150)은 도 5와 같이 구성될 수 있다.
다음으로 고속구문추출장치의 키워드 추출 모듈이 오프셋 테이블(150)과 미리 정의된 결합 제약 조건을 이용하여 키워드를 추출한다. 여기에서 결합 제약 조건이란 특정 카테고리 단어 간 결합에 대한 제약을 의미한다. 미리 등록되는 결합 제약 조건을 예시하면 다음과 같다.
- 기준어 속성 값이 1인 속성들(상품, 스타일, 디테일)은 서로 결합 가능하다. 단, '디테일' 속성과 '스타일' 속성은 서로 결합할 수 없다.
- 단독 추출 속성 값이 1인 속성은 결합 되는 단어가 없어도 단독으로 키워드로 추출하고 0인 값은 단독으로 추출하지 않는다.
- 색상 속성 값이 1인 속성은 앞에 색상 수식어가 결합할 수 있다. 단, 색상 수식어는 여러 개 붙을 수 있고 색상 속성 값이 1인 속성끼리는 서로 결합할 수 없다.
- 색상수식어 속성 값이 1인 속성은 색상과만 결합 할 수 있다.
- 사용자 정의 속성 값이 1인 속성은 기준어와 동일하다. 기준어 속성 값이 1이 아닌 속성이라 하더라도 키워드로 추출되어야 하는 특수 단어들을 정의하기 위해 사용한다.
모든 결합 제약 조건은 키워드 추출 모듈의 알고리즘을 수행하는 동안 항상 적용한다.
한편, 키워드 결합은 키워드 결합은 '수식어+기준어' 형태로 이루어진다. 핵심어가 기준어이다. 따라서 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 탐색한다.
탐색을 진행하는 동안 현재 탐색 단어의 시작 위치와 이전 단어의 끝 위치가 다른 경우 또는 결합 제약에 위배되는 경우 탐색을 종료하고 이전 단어부터 다시 탐색을 진행한다. 또한, 결합된 전체 단어에 대해 서브 결합 단어를 생성하여 키워드 결과에 추가한다. 서브 결합 단어를 이용하여 키워드 결과를 생성할 때는 아래 도 6의 테이블에서 보는 바와 같이 단어가 문서 내의 어떤 필드에 나타나는지에 따라 미리 등록되어 있는 가중치를 부여한다. 이는 같은 단어라도 등장한 필드에 따라 중요도가 달라지도록 조정하기 위함이다.
예를 들어 결합된 단어가 "라이프 레드 줄지 원피스"인 경우를 생각해 보자. 그러면 "라이프 줄지 원피스", "레드 줄지 원피스", "라이프 레드 원피스", "라이프 줄지 원피스", "레드 원피스", "줄지 원피스"가 전체 키워드 결과에 추가된다.
결합된 단어는 상품 속성 사전 내에 정의 되어 있는 속성별 가중치에 따라 결합 단어의 마지막 두 단어의 속성 가중치를 합한 값에 필드 별 가중치를 곱한 값으로 최종 스코어를 계산한다.
예컨대 "레드 줄지 원피스"가 <제목> 필드에 등장한 경우 전체 스코어는 다음과 같다. 상품의 제목 필드 가중치와 (무늬 속성 가중치와 상품 속성 가중치의 합)을 곱한 가중치가 "레드 줄지 원피스"의 스코어가 된다.
1.0 x(0.7+0.9) = 1.6
예를 들어 "라이트 원피스"가 <상품기술서> 필드에 등장한 경우 전체 스코어는 다음과 같다. 상품의 상품기술서 필드 가중치와 (색상수식어 속성 가중치와 상품 속성 가중치의 합)을 곱한 가중치가 "라이트 원피스"의 스코어가 된다.
0.6 x(0.1+0.9) = 0.6
이처럼 계산하여 전체 키워드를 스코어 내림차순으로 정렬할 수 있다. 그런 다음, 예컨대 Top 5를 대표 키워드 결과로 생성한다. 같은 결합 단어가 여러 필드에서 등장하는 경우 가중치의 최대 값으로 계산한다.
참고로, 본 발명의 일 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계 되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐 만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 컴퓨터 장치에 의해 실행되는 고속구문추출장치의 속성 단어 검출 모듈이 상품 관련 데이터인 수집된 입력문서에서 상품의 속성이 되는 단어를 추출하여 상품 속성 사전을 미리 구축하고, 구축된 상기 상품 속성 사전을 이용하여 상기 입력문서 내의 모든 문장에 대해 상기 상품 속성 사전에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하고,
    상기 고속구문추출장치의 키워드 추출 모듈이 상기 오프셋 테이블과 미리 정의된 결합 제약 조건을 이용하여 상기 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 키워드 탐색을 실시한 후, 단어가 상기 입력문서 내의 어떤 필드에 나타나는지에 따라 미리 부여된 필드별 가중치를 적용하여 산출된 스코어 중 높은 스코어가 부여된 복수의 키워드들을 대표 키워드 결과로 생성하는 단계를 포함하는 것을 특징으로 하는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
  2. 제1항에 있어서,
    상기 상품 속성 사전은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와 상기 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류하며, 수식어보다 기준어에 더 높은 가중치가 부여되어 있는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
  3. 제1항에 있어서,
    상기 오프셋 테이블은 복수의 속성 단어를 포함하며, 속성 단어마다 그 단어의 시작 위치 및 끝 위치와 해당 속성 단어의 가중치를 적용하여 테이블을 구성한 것인, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
  4. 제1항에 있어서,
    상기 상품 속성 사전은 등록되어 있는 단어가 속하는 속성마다 속성별 가중치가 미리 부여되어 있는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
KR1020200157787A 2020-11-23 2020-11-23 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법 KR102449572B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200157787A KR102449572B1 (ko) 2020-11-23 2020-11-23 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200157787A KR102449572B1 (ko) 2020-11-23 2020-11-23 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법

Publications (2)

Publication Number Publication Date
KR20220070824A true KR20220070824A (ko) 2022-05-31
KR102449572B1 KR102449572B1 (ko) 2022-09-30

Family

ID=81786322

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200157787A KR102449572B1 (ko) 2020-11-23 2020-11-23 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법

Country Status (1)

Country Link
KR (1) KR102449572B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170120389A (ko) * 2016-04-21 2017-10-31 (주)원제로소프트 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
KR20180059112A (ko) * 2016-11-25 2018-06-04 한국전자통신연구원 콘텐츠 분류 장치 및 방법
KR20190065055A (ko) * 2017-12-01 2019-06-11 주식회사 애드업 콘텐츠 추천 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170120389A (ko) * 2016-04-21 2017-10-31 (주)원제로소프트 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
KR20180059112A (ko) * 2016-11-25 2018-06-04 한국전자통신연구원 콘텐츠 분류 장치 및 방법
KR20190065055A (ko) * 2017-12-01 2019-06-11 주식회사 애드업 콘텐츠 추천 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jae-Seok Myung, Lee Dong-Ju, and Sang-Koo Lee, Korean product review analysis system using semi-automatically constructed semantic dictionary, Journal of the Information Science Association: Software and Applications 35(6), 2008.6, pp. 392-403. *

Also Published As

Publication number Publication date
KR102449572B1 (ko) 2022-09-30

Similar Documents

Publication Publication Date Title
Singh et al. Relevance feedback-based query expansion model using ranks combining and Word2Vec approach
Moratanch et al. A survey on abstractive text summarization
KR101109236B1 (ko) 복수-의미 질의에 대한 관련 용어 제안
US8010545B2 (en) System and method for providing a topic-directed search
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
US9589072B2 (en) Discovering expertise using document metadata in part to rank authors
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
Fejer et al. Automatic Arabic text summarization using clustering and keyphrase extraction
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
Rani et al. A weighted word embedding based approach for extractive text summarization
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Lin et al. A simple but effective method for Indonesian automatic text summarisation
Abudalfa et al. Survey on target dependent sentiment analysis of micro-blogs in social media
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
CN107665442B (zh) 获取目标用户的方法及装置
KR102449572B1 (ko) 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Ketui et al. An EDU-based approach for Thai multi-document summarization and its application
TWI534640B (zh) Chinese network information monitoring and analysis system and its method
Wang et al. Query construction based on concept importance for effective patent retrieval
JP2529418B2 (ja) 文書検索装置
Ketui et al. Thai multi-document summarization: Unit segmentation, unit-graph formulation, and unit selection
Adeyanju et al. RGU-ISTI-Essex at TREC 2011 session track
JP2013084216A (ja) 定型文判別装置及び定型文判別方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant