KR20220070824A

KR20220070824A - 비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법

Info

Publication number: KR20220070824A
Application number: KR1020200157787A
Authority: KR
Inventors: 하태빈; 최서희; 박호진; 안영민; 채종현
Original assignee: (주)아이브릭스
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-05-31
Also published as: KR102449572B1

Abstract

본 발명은 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 관합니다.
본 발명은 상품의 속성(상품명, 가격, 판매량 등)과 상품 사용 후기, 셀링 포인트 등의 비정형 텍스트를 통해 커머스 딥메타 정보를 추출하고 이를 기반으로 상품 분류, 검색, 추천 등을 위한 상품을 프로파일링하는 시스템에 대한 것입니다. 특히 본 발명은 상품의 속성이 될 수 있는 사전을 미리 구축하고 이를 이용하여 상기한 알고리즘 등을 사용하지 않고도 길이가 긴 텍스트에 대해 핵심 키워드를 고속으로 추출하는 시스템을 제안합니다.

Description

비정형 텍스트에서 상품 속성 사전 기반의 대표 키워드 추출 방법{THE KEYWORDS EXTRACTION METHOD FOR UNSTRUCTURED DATA USING PROPERTY DICTIONARY OF GOODS}

본 발명은 언어처리 기술에 관하며, 특히 비정형 텍스트를 분석하고 처리하는 방법에 관한다.

문서 분석을 위해 문장에서 키워드를 추출한다. 문장에서 키워드를 추출하기 위해서는 일반적으로 형태소 분석기로 문서 내의 문장들에 대한 형태소 분석을 수행한다. 형태소 분석을 통해 명사를 추출하고 띄어쓰기 및 불용어(stopword) 제거 등의 과정을 거친다.

또한 문장 내의 단어들의 서브스트링(substring)으로 단어 그래프나 문장 그래프를 구축한 뒤 페이지랭크(PageRank) 등으로 문서에 상대적 중요도에 따라 가중치를 부여하는 그래프 랭킹 알고리즘을 이용하는 방법도 알려져 있다.

그런데 그래프 랭킹 알고리즘의 경우 추출된 키워드나 문장의 랭크 값으로 키워드 벡터를 생성하고 필요에 따라 유사도를 비교하는 알고리즘을 사용하게 된다.

위와 같은 방법들은 문서를 분석하여 키워드를 추출하는 핵심 모듈을 실행하기 이전에 소모되는 리소스가 크다는 문제점이 있었다. 특히 상품 후기 또는 상품의 특성과 같이 길이가 긴 텍스트에 대해서는 텍스트의 길이에 비례하여 처리 시간이 기하급수적으로 늘어나는 부작용이 생긴다. 특히 비정형 텍스트에 대한 키워드 추출은 더욱 어렵다.

본 발명의 발명자들은 위와 같은 문제점을 해결하기 위하여 오랫동안 연구하고 노력한 끝에 본 발명을 완성하기에 이르렀다.

본 발명의 발명자들은, 길이가 긴 텍스트에 대해 핵심 키워드를 고속으로 추출하는 방법으로서, 상품의 속성이 될 수 있는 사전을 미리 구축한 다음에 이를 이용하되, 앞에서 언급한 종래의 알고리즘을 사용하지 않는 방법론에 대해 토론하면서 함께 연구하게 되었다. 키워드 추출을 위한 대부분의 알고리즘들은 문장이나 문서를 수치화하는 작업들이 필요하고 수치화된 데이터를 이용하기 위한 자원의 소모가 크다는 것이 우리 발명자들의 컨센서스였다.

요컨대 본 발명의 목적은 단어들에 대한 전/후처리 작업들을 하지 않고 구축된 사전과 본 명세서에서 개시하는 알고리즘을 이용하여 키워드를 추출하는 시스템 및 방법을 구현하는 데 있다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.

전술한 과제를 해결하기 위하여 본 발명의 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법은 컴퓨터 장치에 의해 실행되는 고속구문추출장치의 속성 단어 검출 모듈이 상품 관련 데이터인 수집된 입력문서에서 상품의 속성이 되는 단어를 추출하여 상품 속성 사전을 미리 구축하고, 구축된 상기 상품 속성 사전을 이용하여 상기 입력문서 내의 모든 문장에 대해 상기 상품 속성 사전에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하고,

상기 고속구문추출장치의 키워드 추출 모듈이 상기 오프셋 테이블과 미리 정의된 결합 제약 조건을 이용하여 상기 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 키워드 탐색을 실시한 후, 단어가 상기 입력문서 내의 어떤 필드에 나타나는지에 따라 미리 부여된 필드별 가중치를 적용하여 산출된 스코어 중 높은 스코어가 부여된 복수의 키워드들을 대표 키워드 결과로 생성하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 상품 속성 사전은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와 상기 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류하며, 수식어보다 기준어에 더 높은 가중치가 부여되어 있는 것이 좋다.

또한, 본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 오프셋 테이블은 복수의 속성 단어를 포함하며, 속성 단어마다 그 단어의 시작 위치 및 끝 위치와 해당 속성 단어의 가중치를 적용하여 테이블을 구성한 것이다.

또한, 본 발명의 바람직한 어느 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법에 있어서, 상기 상품 속성 사전은 등록되어 있는 단어가 속하는 속성마다 속성별 가중치가 미리 부여되어 있는 것이 좋다.

본 발명은 자원의 소모를 최소화하면서 미리 구축된 감성 사전을 이용하여 고속으로 키워드 추출을 수행할 수 있는 장점이 있다. 이러한 감성 사전은 본 명세서 상품 속성 사전으로 표혀되어 있다. 또한 사전 구축은 카테고리 추가/삭제 및 엔트리의 수정을 통해 유연한 확장성을 제공할 수 있으며, 블랙리스트를 이용하여 단어의 추출 여부 제어도 가능하다. 물론 사전 구축 작업에 비용과 시간이 소요된다. 하지만 일단 감성 사전을 잘 구축해 놓으면, 구축된 사전을 이용하는 것만으로도 사용자가 정의한 결합 제약에 따라 빠른 키워드 추출이 가능하다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 본 발명의 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 상품 속성 사전 기반 키워드 추출 시스템을 예시한다.
도 3은 본 발명의 일 예로서 상품 속성 사전의 '상품' 카테고리 구성을 예시한다.
도 4는 본 발명의 일 예로서 미리 등록되는 사전 카테고리의 속성별 가중치를 나타낸다.
도 5는 본 발명에 따른 오프셋(offset) 테이블의 구성을 예시한다.
도 6은 미리 등록되어 있는 필드 별 가중치 테이블을 예시한다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.

컴퓨터 장치(100)는 문서 수집 시스템(101)에서 비정형 데이터를 수집해서 문장 분석을 실행하는 프로세서 기능을 하는 장치이다. 바람직한 어느 실시예에서는 하나 이상의 서버 장치로 이해될 수 있다. 바람직한 다른 실시예에서는 관리자 단말일 수도 있다. 또한 컴퓨터 장치(100)는 하나 이상의 하드웨어/소프트웨어 장비로 구성되며, 비정형 데이터가 보관되어 있는 데이터베이스에 액세스하여 데이터를 수집, 분석, 정제, 분류하는 등의 기능을 처리한다. 컴퓨터 장치(100)에는 다양한 소프트웨어 모듈들이 설치되어 있다. 본 발명의 구성을 보다 편의적으로 설명하기 위해서 도면에서는 그 중 특히 고속구문추출장치(110)를 나타내고 있다. 고속구문추출장치(110)는 데이터베이스에 저장되어 있는 비정형 데이터를 수집해서 분석하고 상품 속성 사전을 구축하는 모듈, 구축된 상품 속성 사전을 이용하여 오프셋 테이블을 생성하는 모듈, 대표 키워드들을 추출하는 모듈을 포함한다. 이들 모듈의 구성과 기능에 대해서는 아래에서 다시 설명한다. 또한 컴퓨터 장치(100)는 비정형 데이터를 분석해서 얻은 결과를 데이터베이스(130)에 보관할 수도 있다.

문서 수집 시스템(101)은 네트워크를 통해 다수의 사용자 단말(10, 10…)로부터 비정형 데이터가 수집되는 시스템이다. 바람직한 어느 실시예에서는 상품정보를 제공하거나 판매하는 커머스 사이트로 이해될 수 있다. 상품명, 분류명, 가격, 판매량 등의 상품의 속성에 관한 데이터뿐만 아니라, 사용자들이 시스템에 업로드하는 상품 사용 후가, 셀링 포인트 등의 비정형 데이터가 수집된다. 위와 같은 비정형 데이터는 상품 관련 데이터이며, 고속구문추출장치(110)의 관점에서는 입력 문서가 된다. 커머스 사이트로서의 문서 수집 시스템의 구성과 관리에 대해서는 본 발명의 기술사상과는 직접적인 관련이 없으므로 자세한 설명은 생략한다.

도 2는 본 발명의 바람직한 어느 실시예에 따른 상품 속성 사전(120) 기반의 키워드 추출 시스템을 프로세스 관점으로 개략적으로 나타내는 도면이다.

상품 관련 데이터인 수집된 입력문서(1)가 고속구문추출장치(110)로 전달된다. 그러면 고속구문추출장치(110)는 이 입력문서(1)에서 대한 본 발명의 분석 및 처리 작업을 실행한 후에 핵심 키워드(2)를 추출해서 출력값으로 내보내게 된다.

본 발명에서는 특히 상품 속성 사전(120)을 미리 구축하여 입력문서(1)에 포함되어 있는 단어 및 문장을 분석할 때 이 상품 속성 사전(120)을 이용한다는 점에 있다. 그러므로 우리는 상품 속성 사전(120)이 무엇이며 어떻게 활용되는지를 보다 구체적으로 설명해야 한다.

도시되어 있는 것처럼, 고속구문추출장치(110)는 속성 단어 검출 모듈(112) 및 키워드 추출 모듈(114)로 이루어져 있다.

속성 단어 검출 모듈(112)은 상품의 속성이 되는 단어를 추출하여 상품 속성 사전(120)을 미리 구축하는 프로세스와, 구축된 상품 속성 사전(120)을 이용하여 입력문서(1) 내의 모든 문장에 대해 상품 속성 사전(120)에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하는 프로세스를 실행한다.

상품 속성 사전(120)은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와, 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류된다. 수식어보다 기준어에 더 높은 가중치가 부여된다.

기준어 속성 카테고리에는, 전술한 문서 수집 시스템이 의류 상품을 판매하는 웹 사이트에 기반한다고 가정할 때, 예컨대 "블라우스", "룩", "핏", "무늬" 등 보편적인 의류 상품을 지칭하는 단어 또는 차림새, 이미지 등 의류 상품의 외관 속성을 지니는 단어에 해당하는 단어들이 포함된다.

수식어 속성 카테고리에는 예컨대 "소재", "색상", "크기" 등에 관해서 기준어를 수식할 수 있는 단어들이 분류되어 포함된다.

상품 속성 사전의 각 카테고리의 엔트리 구성은 해당 카테고리의 가중치, 기준어 여부, 단독 추출 여부 등 카테고리 고유의 특징들을 포함하며, 하나의 엔트리에는 대표어와 유의어도 함께 포함한다.

도 3 및 도 4는 각각 상품 속성 사전의 '상품' 카테고리 구성을 예시하는 테이블(121), 상품 속성 사전의 속성별 가중치를 미리 설정하고 있는 테이블(123)을 예시적으로 나타낸다.

위와 같은 테이블들로 미리 상품 속성 사전을 모두 구축한 다음에, 속성 단어 검출 모듈은 입력 문서 내의 모든 문장들에 대해 첫 음절부터 시작하여 마지막 음절까지 탐색하면서 상품 속성 사전 내의 단어가 검색된 경우에 해당 단어의 시작 위치, 끝 위치, 단어를 테이블에 정하는 과정을 거쳐 오프셋 테이블을 생성한다. 즉, 오프셋 테이블은 문장에서 속성 단어가 나타난 위치, 즉 단어의 시작 위치와 끝 위치, 그리고 도 4에서 예시하는 바와 같은 속성 단어로 구성된다. 탐색하는 과정에서 사전에 있는 최장 단어 길이보다 탐색하는 단어가 긴 경우는 탐색을 종료한다.

아래와 같은 예문이 있다고 가정한다

예문 1: 라이트 레드 줄지 원피스

이 예문 1의 위치와 음절은 아래의 표 1과 같다.

위치	0	1	2	3	4	5	6	7	8	9	10	11	12
음절	라	이	트		레	드		줄	지		원	피	스

위와 같은 예문 1에 대한 오프셋 테이블(150)은 도 5와 같이 구성될 수 있다.

다음으로 고속구문추출장치의 키워드 추출 모듈이 오프셋 테이블(150)과 미리 정의된 결합 제약 조건을 이용하여 키워드를 추출한다. 여기에서 결합 제약 조건이란 특정 카테고리 단어 간 결합에 대한 제약을 의미한다. 미리 등록되는 결합 제약 조건을 예시하면 다음과 같다.

- 기준어 속성 값이 1인 속성들(상품, 스타일, 디테일)은 서로 결합 가능하다. 단, '디테일' 속성과 '스타일' 속성은 서로 결합할 수 없다.

- 단독 추출 속성 값이 1인 속성은 결합 되는 단어가 없어도 단독으로 키워드로 추출하고 0인 값은 단독으로 추출하지 않는다.

- 색상 속성 값이 1인 속성은 앞에 색상 수식어가 결합할 수 있다. 단, 색상 수식어는 여러 개 붙을 수 있고 색상 속성 값이 1인 속성끼리는 서로 결합할 수 없다.

- 색상수식어 속성 값이 1인 속성은 색상과만 결합 할 수 있다.

- 사용자 정의 속성 값이 1인 속성은 기준어와 동일하다. 기준어 속성 값이 1이 아닌 속성이라 하더라도 키워드로 추출되어야 하는 특수 단어들을 정의하기 위해 사용한다.

모든 결합 제약 조건은 키워드 추출 모듈의 알고리즘을 수행하는 동안 항상 적용한다.

한편, 키워드 결합은 키워드 결합은 '수식어+기준어' 형태로 이루어진다. 핵심어가 기준어이다. 따라서 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 탐색한다.

탐색을 진행하는 동안 현재 탐색 단어의 시작 위치와 이전 단어의 끝 위치가 다른 경우 또는 결합 제약에 위배되는 경우 탐색을 종료하고 이전 단어부터 다시 탐색을 진행한다. 또한, 결합된 전체 단어에 대해 서브 결합 단어를 생성하여 키워드 결과에 추가한다. 서브 결합 단어를 이용하여 키워드 결과를 생성할 때는 아래 도 6의 테이블에서 보는 바와 같이 단어가 문서 내의 어떤 필드에 나타나는지에 따라 미리 등록되어 있는 가중치를 부여한다. 이는 같은 단어라도 등장한 필드에 따라 중요도가 달라지도록 조정하기 위함이다.

예를 들어 결합된 단어가 "라이프 레드 줄지 원피스"인 경우를 생각해 보자. 그러면 "라이프 줄지 원피스", "레드 줄지 원피스", "라이프 레드 원피스", "라이프 줄지 원피스", "레드 원피스", "줄지 원피스"가 전체 키워드 결과에 추가된다.

결합된 단어는 상품 속성 사전 내에 정의 되어 있는 속성별 가중치에 따라 결합 단어의 마지막 두 단어의 속성 가중치를 합한 값에 필드 별 가중치를 곱한 값으로 최종 스코어를 계산한다.

예컨대 "레드 줄지 원피스"가 <제목> 필드에 등장한 경우 전체 스코어는 다음과 같다. 상품의 제목 필드 가중치와 (무늬 속성 가중치와 상품 속성 가중치의 합)을 곱한 가중치가 "레드 줄지 원피스"의 스코어가 된다.

1.0 x(0.7+0.9) = 1.6

예를 들어 "라이트 원피스"가 <상품기술서> 필드에 등장한 경우 전체 스코어는 다음과 같다. 상품의 상품기술서 필드 가중치와 (색상수식어 속성 가중치와 상품 속성 가중치의 합)을 곱한 가중치가 "라이트 원피스"의 스코어가 된다.

0.6 x(0.1+0.9) = 0.6

이처럼 계산하여 전체 키워드를 스코어 내림차순으로 정렬할 수 있다. 그런 다음, 예컨대 Top 5를 대표 키워드 결과로 생성한다. 같은 결합 단어가 여러 필드에서 등장하는 경우 가중치의 최대 값으로 계산한다.

참고로, 본 발명의 일 실시예에 따른 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계 되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐 만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

컴퓨터 장치에 의해 실행되는 고속구문추출장치의 속성 단어 검출 모듈이 상품 관련 데이터인 수집된 입력문서에서 상품의 속성이 되는 단어를 추출하여 상품 속성 사전을 미리 구축하고, 구축된 상기 상품 속성 사전을 이용하여 상기 입력문서 내의 모든 문장에 대해 상기 상품 속성 사전에 포함된 단어가 있는지 탐색하여 오프셋 테이블을 생성하고,
상기 고속구문추출장치의 키워드 추출 모듈이 상기 오프셋 테이블과 미리 정의된 결합 제약 조건을 이용하여 상기 오프셋 테이블의 마지막 단어부터 처음 단어 순서로 키워드 탐색을 실시한 후, 단어가 상기 입력문서 내의 어떤 필드에 나타나는지에 따라 미리 부여된 필드별 가중치를 적용하여 산출된 스코어 중 높은 스코어가 부여된 복수의 키워드들을 대표 키워드 결과로 생성하는 단계를 포함하는 것을 특징으로 하는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
제1항에 있어서,
상기 상품 속성 사전은 상품 속성의 기준이 되는 단어인 기준어가 속하는 기준어 속성 카테고리와 상기 기준어를 수식하는 단어인 수식어가 속하는 수식어 속성 카테고리로 단어를 분류하며, 수식어보다 기준어에 더 높은 가중치가 부여되어 있는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
제1항에 있어서,
상기 오프셋 테이블은 복수의 속성 단어를 포함하며, 속성 단어마다 그 단어의 시작 위치 및 끝 위치와 해당 속성 단어의 가중치를 적용하여 테이블을 구성한 것인, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.
제1항에 있어서,
상기 상품 속성 사전은 등록되어 있는 단어가 속하는 속성마다 속성별 가중치가 미리 부여되어 있는, 비정형 텍스트에서 상품 속성 사전을 기반으로 한 대표 키워드 추출 방법.