KR102151328B1

KR102151328B1 - 오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치

Info

Publication number: KR102151328B1
Application number: KR1020187017252A
Authority: KR
Inventors: 지우시 리
Original assignee: 알리바바 그룹 홀딩 리미티드
Priority date: 2015-11-18
Filing date: 2016-11-09
Publication date: 2020-09-03
Also published as: SG11201804174TA; US20180268464A1; JP2019504380A; KR20180085756A; AU2016355767A1; WO2017084521A1; CN106709777A; PH12018501058A1; MY186818A; JP6594543B2; US20200134702A1; EP3379427A4; EP3379427A1; US11200615B2; US11100567B2

Abstract

본 출원은 네트워크 통신 기술 분야에 관한 것으로, 특히 오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치에 관한 것이다. 상기 오더 클러스터링 방법은, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하는 단계; 상기 오더 컨텐츠를 오더 벡터로 변환하는 단계; 및 오더 클러스터링 결과를 획득하도록 상기 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산(operation)을 수행하는 단계를 포함한다. 클러스터링 후에는, 클러스터 내의 오더의 컨텐츠에 따라, 클러스터가 악의적인 정보 클러스터인지를 또한 결정할 수 있다. 클러스터가 악의적인 정보 클러스터이면, 전체 클러스터의 오더가 이에 따라 처리된다. 본 출원의 방법 및 장치에서, 전자 거래에서의 오더는 자동으로 분류될 수 있고, 오더의 실시간 컨텐츠에 기초한 분석을 통해 새로운 클러스터가 획득될 수 있고, 전체 클러스터에서의 오더가 균일하게 처리될 수 있다. 이는 악의적인 정보 퇴치의 효율성을 향상시킨다.

Description

오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치

본 출원은 2015년 11월 18일자로 출원된 명칭이 “오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치(ORDER CLUSTERING AND MALICIOUS INFORMATION COMBATING METHOD AND APPARATUS)”인 중국 특허 출원 제201510795161.9호에 대한 우선권을 주장하며, 이는 본원에 그 전체가 참조로서 통합된다.

기술 분야

본 출원은 네트워크 통신 기술 분야에 관한 것으로, 특히 오더 클러스터링(order clustering) 및 악의적인 정보 퇴치(combating) 방법 및 장치에 관한 것이다.

종래의 전자 상거래 기술에서, 각 거래는 “오더(order)”로서 간주된다. 예를 들어, 알리페이(Alipay) 애플리케이션 소프트웨어에서 “수집” 서비스의 시작은 오더로 간주되며, 각 송금 거래 또한 오더로 간주된다. 악의적인 정보가 오더에 존재할 수 있다. 예를 들어 A알리페이 애프리케이션 소프트웨어의 “수집” 서비스의 악의적인 사용자는, 많은 수의 알리페이 사용자에게 “수집” 요청을 보내고, 각 오더에 대응하는 소비 기록 노트를 피싱(phishing) 웹사이트 주소로 변경할 수 있다. 대부분의 피싱 웹사이트는 “타오바오(Taobao)의 7번째 기념일”과 같은 슬로건(solgan)을 포함한다. 웹 사이트는 알리페이의 공식 웹사이트에 링크되어 있기 때문에, 사용자는 웹사이트를 신뢰하고 방문할 수도 있다. 그것은 사용자에 대한 큰 자본 손실을 야기할 수 있으며, 알리페이의 평판에 영향을 줄 수 있다.

종래 기술에서, 키워드는 일반적으로 악의적인 정보를 필터링하고 식별하는데 사용되지만, 어떤 단점이 있다. 예를 들어, 필터링된 키워드가 정크(junk) 키워드로 알려진 경우에만 키워드 필터링이 작용할 수 있다. 악의적인 사용자가 악의적인 정보에 포함된 키워드를 수정함으로써 조정을 행할 때, 키워드 필터링 솔루션이 실패할 수도 있으며, 악의적인 정보를 식별하는데 있어서 예방적인 역할을 할 수 없다. 수동으로 모니터링하고 키워드를 추가해야만 다양한 방식으로 그리고 다양한 형태로 생성된 악의적인 정보를 필터링할 수 있다. 이 수동적인 대응책은 악의적인 정보를 식별하는데 높은 비용을 초래할 수 있다.

전자 거래에서 부정확하고 융통성없는 오더 분류의 기존 문제를 해결하기 위해, 오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치가 제공될 수 있다. 본 출원의 기술적인 솔루션에서, 오더가 미리 처리된 후에, 클러스터링 연산이 수행되어 보다 정확하게 오더를 분류하고 인간 개입을 감소시킬 수 있다. 또한, 악의적인 정보 클러스터에서의 오더는 대응하는 악의적인 정보를 퇴치 방법 및 장치를 통해 신속하게 처리될 수 있다.

본 출원의 구현예는 전자 거래에서의 오더 클러스터링을 위한 방법을 제공하며, 이 방법은 오더에 대한 정보에 기초하여 고유의 오더 식별자(identifier; ID) 및 오더 컨텐츠를 생성하는 단계; 상기 오더 컨텐츠를 오더 벡터로 변환하는 단계; 및 오더 클러스터링 결과를 획득하도록 상기 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하는 단계를 포함한다.

본 출원의 구현예는 또한, 오더 클러스터링에 기초한 악의적인 정보를 퇴치하기 위한 방법을 제공하며, 이 방법은, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하는 단계; 상기 오더 컨텐츠를 오더 벡터로 변환하는 단계; 오더 클러스터링 결과를 획득하도록 상기 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하는 단계; 및 각 클러스터 내의 대표 오더의 컨텐츠를 분석하고, 대표 오더의 컨텐츠가 악의적인 정보를 포함하면, 클러스터 내의 오더들의 대응하는 처리를 수행하는 단계를 포함한다.

본 출원의 구현예는 또한, 전자 거래에서의 오더 클러스터링을 위한 장치를 제공하며, 상기 장치는, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하도록 구성된 생성 유닛; 상기 오더 컨텐츠를 오더 벡터로 변환하도록 구성된 벡터 변환 유닛; 상기 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득하도록 구성된 클러스터링 연산 유닛을 포함한다.

본 출원의 구현예는 또한, 오더 클러스터링에 기초하여 악의적인 정보를 퇴치하기 위한 장치를 제공하며, 상기 장치는, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하도록 구성된 생성 유닛; 상기 오더 컨텐츠를 오더 벡터로 변환하도록 구성된 벡터 변환 유닛; 상기 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득하도록 구성된 클러스터링 연산 유닛; 각각의 클러스터 내의 대표 오더의 컨텐츠를 분석하고, 상기 대표 오더의 컨텐츠가 악의적인 정보를 포함하면, 클러스터 내의 오더들의 대응하는 처리를 수행하도록 구성된 처리 유닛을 포함한다.

본 출원의 구현예에 제공되는 기술적 솔루션으로부터, 클러스터링 알고리즘이 전자 거래 내의 오더들을 자동으로 분류하는데 사용된다는 것; 새로운 클러스터는 오더의 실시간 컨텐츠에 기초하여 분석을 통해 획득될 수 있다는 것; 및 악의적인 정보를 포함하는 획득된 클러스터가 대응하여 처리될 수 있다는 것을 알 수 있다. 이와 같이, 인간의 개입을 줄일 수 있고, 새로운 클러스터를 자동으로 처리할 수 있다.

물론, 본 출원을 구현하는 제품 또는 방법은 이전에 언급된 이점을 반드시 달성할 필요는 없다.

본 출원의 구현예 또는 종래 기술에서의 기술적인 솔루션을 보다 명확하게 설명하기 위해, 다음은 구현예 또는 종래 기술을 설명하기 위해 요구되는 첨부 도면을 간략하게 설명한다. 명백하게, 다음의 설명에서의 첨부 도면은 단지 본 출원의 일부 구현예를 도시하고, 당업자는 창조적인 노력없이 이들 첨부 도면으로부터 다른 도면을 계속해서 유도할 수도 있다.
도 1은 본 출원의 구현예에 따른, 전자 거래에서의 오더 클러스터링을 위한 방법을 도시하는 흐름도이다.
도 2는 본 출원의 구현예에 따른, 전자 거래에서의 오더 클러스터링을 위한 장치를 도시하는 개략적인 구조도이다.
도 3은 본 출원의 구현예에 따른, 오더 클러스터링에 기초한 악의적인 정보를 퇴치하는 방법을 도시하는 흐름도이다.
도 4는 본 출원의 구현예에 따른, 오더 클러스터링에 기초한 악의적인 정보를 퇴치하기 위한 장치를 도시하는 개략적인 구조도이다.
도 5는 본 출원의 구현예에 따른, 전자 거래에서의 오더 클러스터링에 기초한 악의적인 정보를 퇴치하는 방법을 도시하는 흐름도이다.
도 6은 본 출원의 구현예에 따른, 클러스터링 처리 후에 오더를 신속하게 분류하는 방법을 도시하는 흐름도이다.

본 출원의 구현예는 오더 클러스터링 및 악의적 정보 퇴치 방법 및 장치를 제공한다.

당업자가 본 출원의 기술적 솔루션을 더 잘 이해할 수 있도록 하기 위해, 이하에서는 본 출원의 구현예에서 첨부 도면을 참조하여 본 출원의 구현예에서의 기술적 솔루션을 명확하고 완전하게 설명한다. 명백하게, 설명된 구현예는 단지 본 출원의 구현예의 단지 일부이며 구현예의 전부는 아니다. 창의적인 노력없이 본 출원의 구현예에 기초하여 당업자에 의해 획득된 다른 구현예들은 본 출원의 보호 범위 내에 포함될 것이다.

도 1은 본 출원의 구현예에 따른, 전자 거래에서 오더 클러스터링을 위한 방법을 예시하는 흐름도이다. 이 구현예에서, 전송된 일부 정보는 정상이며, 전송된 일부 정보는 악성이다. 사용자에 의해 전송된 정보는 전자 거래 시스템에서 서버에 의해 전달되기 때문에, 이 구현예에서의 방법은 전자 거래 시스템의 서버에 의해 구현될 수 있다. 평균 이동(mean-shift) 클러스터링 알고리즘과 같은 클러스터링 알고리즘을 사용하여 전송된 정보를 자동으로 분류하고 새로운 클러스터를 자동으로 생성할 수 있다. 개발자는 클러스터 수를 미리 결정할 필요가 없다. 이 분류 방법은 보다 융통성이 있으며, 오더 컨텐츠의 자체 식별 정확도, 및 분류 정확도를 향상시킬 수 있다. 또한, 이는 인간의 개입을 줄이고, 업무 효율성을 향상시키며, 이후의 악의적인 정보 퇴치의 처리 효율성을 향상시킬 수 있다.

도 1은 다음 단계 즉, 단계 101를 포함하며, 이 단계는 오더에 대한 정보에 기초하여 고유의 오더 ID 및 대응하는 오더 컨텐츠를 생성한다.

단계 102: 오더 컨텐츠를 오더 벡터로 변환한다.

단계 103: 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득한다.

이 구현예에서, 평균 이동 클러스터링 알고리즘은, 오더 클러스터링 결과를 획득하기 위하여 오더에 대하여 클러스터링 연산을 수행하는데 사용될 수 있다. 평균 이동 클러스터링 연산은 논파라메트릭 다중 모델(multi-model) 분할 방법이다. 그 기본 계산 모듈은 종래의 패턴 인식 프로그램을 사용한다. 분할(segmentation)은 이미지 고유공간 분석과 클러스터링 방법에 기초하여 달성된다. 평균 이동 클러스터링 연산에서, 고유공간 확률 밀도 함수의 국부적 최대 값을 직접 추정하여, 미지의 클러스터의 밀도 패턴을 획득하고 패턴의 위치를 결정한다. 그 후, 오더가 패턴과 관련된 클러스터에 추가된다. 실제 구현예에서는, 적절한 클러스터링 알고리즘이 필요에 따라 선택되거나 사용될 수 있다.

본 출원의 구현예에 따르면, 상기 방법은 상기 클러스터 내의 오더의 컨텐츠를 특징 문자열(string)에 매핑하는 단계를 더 포함한다. 분석될 오더의 컨텐츠의 매핑된 문자열이 특징 문자열과 동일한 경우, 분석될 오더가 클러스터에 직접 추가된다.

본 출원의 구현예에 따르면, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하기 전에, 상기 방법은 오더를 하둡 분산 파일 시스템(Hadoop distributed file system; HDFS)으로 가져오는 단계를 더 포함한다. 본 출원의 후속 단계들은 처리 효율을 향상시키기 위해 HDFS에서 수행될 수 있다. 물론, HDFS에서 본 개시의 다른 단계들을 수행하는 것은 선택 사항이다. 이러한 단계들은 다른 분산 시스템에서 수행될 수 있으며, 효율성도 또한 향상될 수 있다. 여기서는 간략화를 위해 세부사항을 생략한다.

본 출원의 구현예에 따르면, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하는 단계는, 오더에 대한 정보에서의 사용자 ID, 오더 ID, 및 서비스 유형에 기초하여 고유의 오더 ID를 생성하는 단계; 및 상기 오더에 대한 정보에서의 오더 타이틀 또는 오더 리마크(remark)에 기초하여 오더 컨텐츠를 생성하는 단계를 더 포함한다.

이 구현예에서 사용자 ID, 오더 ID, 및 서비스 유형의 3 가지 필드의 조합에 기초하여 고유의 오더 ID를 생성하는 것 이외에도, 고유의 오더 ID는, 사용자 ID, 오더 ID, 및 서비스 유형의 임의의 조합에 기초하여 생성될 수도 있다. 대안적으로, 고유의 오더 ID를 생성하기 위해 다른 필드의 컨텐츠(외부 오더 번호 등)를 포함할 수도 있다.

오더 타일틀은 제품 설명 및 오더 설명을 포함할 수 있다. 예를 들어, 수집 서비스의 오더 타이틀은 서비스 이름, 지불인(payer), 또는 메시지를 포함할 수 있다. 오더 리마크는 URL(Uniform Resource Locator) 주소, 홍보 문구, 또는 홍보 그림과 같이, 오더를 개시하는 사용자의 홍보 정보를 포함할 수 있다.

본 출원의 구현예에 따르면, 오더 컨텐츠를 오더 벡터로 변환하는 단계는, 오더 컨텐츠를 TF-IDF(term frequency-inverse document frequency) 벡터로 변환하는 단계를 포함한다.

본 출원의 이러한 구현예에서, 평균 이동 클러스터링 알고리즘은, 전자 거래에서의 오더를 자동으로 분류하는데 사용될 수 있고, 오더의 실시간 컨텐츠에 기초한 분석을 통해 새로운 클러스터가 획득될 수 있다. 오더가 처리되면, 이는 트랜스코딩될 수 있다. 그 후, 오더 분류 효율을 더 향상시키기 위하여, 트랜스코딩된 오더가 특정 클러스터에서의 오더의 특징 문자열과 동일한지 여부를 결정할 수 있다. 오더는 분산 시스템의 특성을 이용함으로써, 오더 분류 효율성을 더욱 향상시키기 위해 HDFS와 같은 분산 파일 시스템으로 가져올 수 있다.

도 2는 본 출원의 구현예에 따른, 전자 거래에서의 오더 클러스터링을 위한 장치를 도시하는 개략적인 구조도이다. 이 구현예의 장치는 전자 거래 시스템의 서버 상에 설치될 수 있다. 또는, 이 구현예에서 고성능 서버를 별도로 사용하여 장치를 구현할 수 있다. 이 구현예에서의 장치의 각 기능 유닛 또는 모듈은, 전용 중앙 처리 장치(CPU), 단일칩 마이크로컴퓨터, 또는 필드 프로그램 가능한 게이트 어레이(field programmable gate array; FPGA)에 의해 구현될 수 있거나, 또는 각 기능 모듈의 제어 로직을 실행하는 범용 프로세서에 의해 구현된다. 본 구현예의 장치의 기능 모듈은, 오더를 효과적으로 분류하기 위해 평균 이동 클러스터링 연산을 수행할 수 있고, 오더 컨텐츠에 기초하여 새로운 클러스터를 획득할 수 있다. 개발자는 클러스터의 수를 미리 결정할 필요가 없다. 이와 같이, 오더 클러스터링, 분류 정확도, 및 작업 효율성에 기초하여 악의적인 정보를 퇴치하는 자체 식별이 향상될 수 있으며, 인간의 개입을 줄일 수 있다.

이 구현예의 장치는, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하도록 구성된 생성 유닛(201); 상기 오더 컨텐츠를 오더 벡터로 변환하도록 구성된 벡터 변환 유닛(202); 및 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득하도록 구성된 클러스터링 연산 유닛(203)를 포함한다.

본 출원의 구현예에 따르면, 상기 생성 유닛과 상기 클러스터링 연산 유닛을 연결하고, 상기 클러스터 내의 오더의 컨텐츠를 특징 문자열에 맵핑하도록 구성된 변환 유닛(204)을 더 포함한다. 오더의 컨텐츠의 맵핑된 문자열이 특징 문자열과 동일할 때, 오더를 클러스터에 추가한다.

본 출원의 구현예에 따르면, 상기 장치는 오더를 하둡 분산 파일 시스템(HDFS)으로 가져오도록 구성된 가져오기 유닛(205)을 더 포함한다.

본 출원의 구현예에 따르면, 생성 유닛은 또한, 오더 정보에 포함된 사용자 ID, 오더 ID, 및 서비스 유형에 기초하여 고유의 오더 ID를 생성하고; 오더 정보에 포함된 오더 타이틀 또는 오더 설명에 기초하여 오더 컨텐츠를 생성하도록 구성된다.

본 출원의 구현예에 따르면, 벡터 변환 유닛은 또한, 오더 컨텐츠를 TF-IDF 벡터로 변환하도록 구성된다.

본 출원의 구현예에서의 장치에서, 평균 이동 클러스터링 알고리즘은 전자 거래에서의 오더를 자동으로 분류하는데 사용될 수 있고, 새로운 클러스터는 상기 오더의 실시간 컨텐츠에 기초한 분석을 통해 획득될 수 있다. 오더가 처리될 때, 오더는 트랜스코딩될 수 있다. 그 후, 오더 분류 효율을 더욱 향상시키기 위하여, 트랜스코딩된 오더가 특정 클러스터에서의 오더의 특징 문자열과 동일한지 여부를 결정할 수 있다. 오더는 분산 시스템의 특성을 이용함으로써, 오더 분류 효율성을 더욱 향상시키기 위해 HDFS와 같은 분산 파일 시스템으로 가져올 수 있다.

도 3은 본 출원의 구현혜에 따른, 오더 클러스터링에 기초하여 악의적인 정보를 퇴치하기 위한 방법을 도시하는 흐름도이다. 이 구현예에서는, 생성된 클러스터를 분석하여 어느 클러스터가 악의적인 정보(정크 오더 등)를 포함하는지를 결정한다. 클러스터 내의 오더들의 대응하는 처리를 수행함으로써 전자 거래 위험을 피할 수 있다.

이 도면에서, 다음의 단계들은 단계 301을 포함하며, 이 단계는 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성한다.

단계 302: 오더 컨텐츠를 오더 벡터로 변환한다.

단계 303: 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득한다.

단계 304: 각각의 클러스터에서 대표 오더의 컨텐츠를 분석하고, 대표 오더의 컨텐츠가 악의적인 정보를 포함하면, 클러스터 내의 오더들의 대응하는 처리를 수행한다.

기존 방법을 사용하여 클러스터 내의 오더의 컨텐츠가 악의적인 정보인지 여부를 결정할 수 있다. 예를 들어, 클러스터 내의 특정 오더의 컨텐츠가 악의적인 정보인지 여부는, 키워드에 기초하여 결정되거나, 또는 오더 컨텐츠는 수동으로 차단된다. 대응하는 처리는 클러스터에 사용자 ID를 기록하는 것, 사용자 ID를 금지하는 관리자에게 사용자 ID를 전송하는 것, 사용자 ID에 경보 정보를 전송하는 것 등을 포함할 수 있다.

본 출원의 구현예에 따르면, 상기 방법은 상기 클러스터 내의 오더의 컨텐츠를 특징 문자열에 매핑하는 단계를 더 포함한다. 오더의 오더 컨텐츠의 맵핑된 문자열이 특징 문자열과 동일할 때, 오더는 직접 클러스터에 추가된다.

본 발명의 구현예에 따르면, 상기 오더의 매핑된 문자열이 상기 특징 문자열과 동일한 경우, 상기 방법은, 상기 클러스터가 정크 클래스로서 마킹된 경우, 거래를 동결하거나 상기 오더와 연관되는 사용자 계정을 차단하는 것과 같은 자동의 악의적인 정보 처리를 직접 수행하는 단계를 더 포함한다.

오더 컨텐츠는 클러스터로부터 무작위로 선택된 오더의 컨텐츠이다.

전술한 단계들에 기초하여, 분석될 오더는 클러스터링 연산 후에 획득된 클러스터들에 기초하여 분류될 수 있다. 특정 사용자에 있어서, 전송된 대부분의 정보(예를 들어, 오더)는 동일할 수 있다. 따라서, 이전에 설명한 클러스터링 알고리즘을 통해 전송된 정보를 포함하는 클러스터가 획득되어 있다. 클러스터 내의 특징 샘플(가장 대표적인 정보가 전송됨)은 MD5 코드로 트랜스코딩된다. 전송된 정보가 다시 수신되면, 전송된 정보가 클러스터에 포함되어 있는지 여부는, MD5 코드로 전송된 정보를 변환하고, 2개의 MD5 코드를 비교함으로써 결정될 수 있다. 전술한 기술적 솔루션에 기초하여, 당업자는 다른 유형의 트랜스코딩이 실현 가능하다고 추론할 수 있다. 여기서는 설명의 간략화를 위해 세부 사항을 반복하지 않는다.

본 출원의 이러한 구현예에서의 방법에서, 평균 이동 클러스터링 알고리즘은 전자 거래에서의 오더를 자동으로 분류하는데 사용될 수 있으며(실제 구현예에서, 적절한 클러스터링 알고리즘이 필요에 따라 선택되거나 사용될 수 있음), 새로운 클러스터는 오더의 실시간 컨텐츠에 기초한 분석을 통해 획득될 수 있다. 오더가 처리될 때, 이 오더는 트랜스코딩될 수 있다. 그 후, 오더 분류 효율을 더욱 향상시킬 수 있도록, 트랜스코딩된 오더가 특정 클러스터에서의 오더의 특징 문자열과 동일한지 여부를 결정할 수 있다. 오더는 분산 시스템의 특성을 이용함으로써, 오더 분류 효율성을 더욱 향상시키기 위하여 HDFS와 같은 분산 파일 시스템으로 가져올 수 있다. 유사한 오더만이 하나의 클러스터에서 클러스터링되므로, 클러스터 내의 하나의 대표적인 오더의 컨텐츠를 분석하여 전체 클러스터가 악의적인 정보 클러스터인지 여부를 결정할 수 있고, 이는 각 오더를 비교하고 결정하는 프로세스를 단순화한다.

도 4는 본 출원의 구현예에 따른, 오더 클러스터링에 기초한 악의적인 정보를 퇴치하기 위한 장치를 도시하는 개략적인 구조도이다. 이 구현예에서의 장치는 전자 거래 시스템의 서버 상에 설치될 수 있다. 또는, 이 구현예에서는 고성능 서버를 별도로 사용하여 장치를 구현할 수 있다. 이 구현예의 장치의 각 기능 유닛 또는 모듈은, 전용 CPU, 단일칩 마이크로컴퓨터, 또는 FPGA에 의해 구현될 수 있거나, 또는 각 기능 모듈의 제어 로직을 실행하는 범용 프로세서에 의해 구현될 수 있다. 이 구현예에서의 장치의 기능 모듈은 오더를 효과적으로 분류하기 위하여 평균 이동 클러스터링 연산을 수행할 수 있고, 오더 컨텐츠에 기초하여 새로운 클러스터를 획득할 수 있다. 개발자는 클러스터의 수를 미리 결정할 필요가 없다. 이와 같이, 오더 클러스터링, 분류 정확도, 및 작업 효율성에 기초하여 악의적인 정보를 퇴치하는 자체 식별이 향상될 수 있으며, 인간의 개입을 줄일 수 있다.

도면에 도시된 구현예는, 오더에 대한 정보에 기초하여 고유의 오더 ID 및 오더 컨텐츠를 생성하도록 구성된 생성 유닛(401); 상기 오더 컨텐츠를 오더 벡터로 변환하도록 구성된 벡터 변환 유닛(402); 고유의 오더 ID 및 오더 벡터에 기초하여 클러스터링 연산을 수행하여 오더 클러스터링 결과를 획득하도록 구성된 클러스터 연산 유닛(403); 및 각 클러스터에서 대표 오더의 컨텐츠를 분석하고, 대표 오더의 컨텐츠가 악의적인 정보를 포함하면, 클러스터 내의 오더들의 대응하는 처리를 수행하도록 구성된 처리 유닛(404)을 포함한다.

본 출원의 구현예에 따르면, 생성 유닛과 클러스터링 연산 유닛을 연결하고, 클러스터 내의 오더의 컨텐츠를 특징 문자열로 매핑하도록 구성된 변환 유닛(405)을 더 포함한다. 오더의 오더 컨텐츠의 맵핑된 문자열이 특징 문자열과 동일할 때, 분석될 오더를 클러스터에 추가한다.

본 출원의 구현예에 따르면, 변환 유닛은 또한, 클러스터가 정크 클래스로서 마킹되었을 때, 분석될 오더를 자동의 악의적인 정보 처리(거래 동결 또는 계정 차단 등)를 위한 처리 유닛에 직접 전송하도록 구성된다.

본 출원의 이러한 구현예에서의 장치에서, 평균 이동 클러스터링 알고리즘은 전자 거래에서의 오더를 자동으로 분류하는데 사용될 수 있으며(실제 구현예에서는, 적절한 클러스터링 알고리즘이 필요에 따라 선택되거나 사용될 수 있음), 새로운 클러스터는 오더의 실시간 컨텐츠에 기초한 분석을 통해 획득될 수 있다. 오더가 처리될 때, 이 오더는 트랜스코딩될 수 있다. 그 후, 오더 분류 효율을 더욱 향상시키기 위하여, 트랜스코딩된 오더가 특정 클러스터에서의 오더의 특징 문자열과 동일한지 여부를 결정할 수 있다. 오더는 분산 시스템의 특성을 이용함으로써, 오더 분류 효율성을 더욱 향상시키기 위해 HDFS와 같은 분산 파일 시스템으로 가져올 수 있다. 유사한 오더만이 하나의 클러스터에서 클러스터링되기 때문에, 클러스터 내의 하나의 대표적인 오더의 컨텐츠를 분석하여, 전체 클러스터가 악의적인 정보 클러스터인지 여부를 판정할 수 있고, 이는 각 오더를 비교하고 결정하는 프로세스를 단순화한다.

도 5는 본 출원의 구현예에 따른, 전자 거래에서의 오더 클러스터링에 기초하여 악의적인 정보를 퇴치하는 방법을 도시하는 흐름도이다. 이 구현예에서, 전체 방법은 하둡 분산 파일 시스템에서 수행되어 전반적인 작업 효율성을 향상시킨다. 클러스터링 프로세스에서, 평균 이동 클러스터링 방법은 설명의 예로 사용된다. 예를 들어, 수집 서비스에 있어서, 수집 서비스에 의해 시작된 오더는, 사용자 ID, 오더 ID, 서비스 유형, 지불인 ID, 날짜, 금액 등이 포함한다. 오더는 리마크 정보를 더 포함한다. 리마크 정보는 피싱 웹사이트의 URL(Uniform Resource Locator)을 포함한다. 악의적인 사용자가 많은 사용자에게 전송된 정보를 보낸다.

다음 단계 즉, 단계 501가 포함되며, 이 단계는 데이터베이스로부터 획득된 오더를 하둡 분산 파일 시스템(HDFS)으로 가져온다.

단계 502: 오더 내의 사용자 ID, 오더 ID, 및 서비스 타입의 조합을 오더의 고유의 ID로서 사용한다.

현재 단계의 조합은, 사용자 ID, 오더 ID, 및 서비스 유형을 조합하여 오더의 고유의 ID를 형성하거나, 사용자 ID의 마지막 두 문자, 오더 ID의 마지막 두 문자, 그리고 서비스 유형을 조합하여 오더의 고유의 ID를 형성하는 것을 포함할 수도 있다. 고유의 ID는 또한, 오더를 고유하게 식별하는 다른 방식으로 생성될 수 있다. 예를 들어, 오더는 오더 ID만으로 고유하게 식별될 수 있다.

단계 503: 오더의 리마크 정보를 오더의 컨텐츠로서 사용한다.

이 구현예에서, 오더의 리마크 정보는, 오더 컨텐츠를 설명한다. 예를 들어, 리마크 정보는 피싱 웹사이트의 URL 주소를 포함한다. 다른 구현예에서, 오더가 거래 기록과 같은 컨텐츠를 더 포함하는 경우, 이 컨텐츠 부분은 오더의 컨텐츠로서 또한 사용될 수 있다. 거래 기록은 오더 내의 제품 설명을 포함할 수 있다. 지불 수집 애플리케이션에 있어서, 거래 기록은, 서비스 타이틀, 지불인, 금액 등을 포함할 수 있다.

이 경우에, 각 오더의 고유의 ID는 오더의 컨텐츠에 대응한다.

단계 504: 오더의 고유의 ID 및 오더의 컨텐츠를 시퀀스파일 포맷으로 변환한다.

현재 단계에서, 변환 후에 획득된 시퀀스파일 포맷은 하둡 분산 파일 시스템(HDFS)을 위해 사용되는 데이터 포맷이다. HDFS에 기초한 처리 방법은, 오더의 고유의 ID 및 오더의 컨텐츠가 이 포맷으로 변환된 후에만 사용되어, 처리 효율성을 향상시킬 수 있다.

단계 505: 오더의 컨텐츠를 TF-IDF 벡터로 변환한다.

변환 후에 획득된 TF-IDF 벡터는, 오더의 고유의 ID를 갖는 매핑 관계 <키, 벡터>를 갖는다. 키는 오더의 고유의 ID이다. 벡터는 오더의 컨텐츠에 의해 형성되며, 오더의 컨텐츠의 수학적 표현 형태이다.

단계 506: 벡터에 대한 평균 이동 클러스터링 연산을 수행하여, 오더 클러스터링 결과를 획득한다.

현재 단계에서, 오더의 컨텐츠는 클러스터와 반복적으로 비교된다. 오더의 컨텐츠를 포함하는 클러스터 또는 새로운 클러스터가 출력된다. 벡터와 매핑 관계를 가지는 키 값(오더의 고유의 ID)이 있기 때문에, 특정 오더를 포함한 클러스터를 결정할 수 있다. 평균 이동 클러스터링 동작에서의 반복 파라미터, 수렴 파라미터 등은, 실제 구현에 기초하여 개발자에 의해 설정될 수 있다. 출력 결과는 시퀀스파일 포맷 내에 있다.

이 시점에서 평균 이동 클러스터링 연산에 기초한 오더 분류 프로세스가 종료된다.

단계 507: 오더 클러스터링 결과를 텍스트 포맷으로 변환한다.

오더 클러스터링 결과는 앞에서 설명한 단계의 시퀀스파일 포맷 내에 있다. 순차적으로 오더 클러스터링 결과를 결정하고 처리하는 것이 편리하지 않을 수도 있다. 따라서, 오더 클러스터링 결과를 텍스트 포맷으로 변환해야 한다.

단계 508: 클러스터 내의 오더 컨텐츠가 악의적인 정보를 포함하는지 여부를 결정한다. 컨텐츠가 악의적인 정보를 포함하면, 단계 509로 진행한다. 컨텐츠가 악의적인 정보를 포함하지 않으면, 단계 510으로 진행한다.

키워드 기반 방법이나 수동 결정 방법과 같은 기술을 사용하여 오더의 컨텐츠가 악의적인 정보를 포함하는지 여부를 결정한다. 하나의 클러스터는 많은 오더를 포함할 수 있다. 일부 경우에는, 결정을 위해 클러스터 내의 하나의 오더만을 선택해야 한다.

다른 구현예에서, 많은 양의 정보가 전송될 수 있고, 특히 더 많은 양의 악의적인 정보가 전송될 수 있기 때문에, 클러스터링 연산이 종료된 후에 각각의 클러스터는 복수의 오더를 포함한다. 양호한 모니터링 결과를 달성하기 위하여, 더 많은 수의 오더를 포함하는 몇몇 클러스터를 선택(예를 들어, 상위 10개 클러스터를 선택)하고, 관리자에게 보내 모니터링한다. 선택된 상위 10개 클러스터의 컨텐츠에 기초하여 악의적인 정보로서 분류될 가능성이 높은 클러스터를 결정할 수 있다.

단계 509: 명령을 시작한 사용자를 마크하여 관리자에 대한 프롬프트 정보를 제공한다.

현재 단계에서 설명된 처리 방법 외에도, 거래 동결 또는 계정 차단과 같은 다른 악의적인 정보 처리 방법들이 있다. 이들 방법은 단순화를 위해 여기서는 상세하게 설명하지 않는다.

단계 510: 컨텐츠가 악의적인 정보를 포함하지 않으면, 더 이상의 처리가 수행될 필요가 없다.

앞서 설명된 구현예에서, 평균 이동 클러스터링 연산은 전자 거래 시스템에서 오더를 분류하는데 사용될 수 있고, 새로운 클러스터가 자동적으로 생성되어 인간의 개입을 감소시키고 실시간으로 변화하는 악의적인 정보의 분류에 적응할 수 있다.

도 6은 본 애플리케이션의 구현에 따른, 클러스터링 처리 후에 오더를 신속하게 분류하는 방법을 도시하는 흐름도이다. 이 방법은 도 5에 도시된 구현예에 기초한다. 각 클러스터는 많은 오더를 포함한다. 시스템은 분석될 새로운 오더를 수신하여 처리한다.

도 6은 다음 단계 즉, 단계 601를 포함하며, 이 단계는 각 클러스터 내의 오더의 컨텐츠를 추출한다.

단계 601에서, 각 클러스터 내의 오더의 컨텐츠는 무작위로 추출될 수 있다. 각 클러스터의 오더의 컨텐츠가 유사하기 때문에, 임의의 추출된 오더의 컨텐츠는 클러스터의 특징으로서 사용될 수 있다.

단계 602: 오더의 추출된 컨텐츠에 대해 MD5 트랜스코딩 연산을 수행하여 특징 문자열을 획득한다.

현재 단계에서, 각 클러스터의 특징 문자열을 획득할 수 있다. 선택적인 구현예에서, MD5 트랜스코딩 연산은 많은 트랜스코딩 연산들 중 하나이며, 다른 트랜스코딩 방법들이 또한 사용될 수 있다. 또는, 개발자는 필요에 따라 트랜스코딩 방법을 설계할 수 있다. 사용된 트랜스코딩 방법은 여기서 제한되지 않는다.

단계 603: 분석될 오더를 획득한다.

현재 단계에서, 분석될 오더는 예를 들어, 도 5에 도시된 구현예의 단계 503에 기초하여 획득될 수 있다. 도 5에 도시된 구현예는 일반적으로 기존 오더를 분석하는데 사용되기 때문에, 도 6에 도시된 구현예는 도 5에 도시된 구현예에 기초하여 수행될 수 있다. 새로운 오더는, 복수의 클러스터가 확립된 후에 앞서 설명된 방법을 사용함으로써 분석될 수 있다. 이는 보다 나은 실시간 성능을 달성하고, 상대적으로 복잡한 클러스터링 연산을 피할 수 있다.

또는, 현재 단계에서, 전송된 정보(오더)를 실시간으로 비교 및 분석하여, 오더를 포함하는 클러스터를 결정할 수 있다.

단계 604: 오더의 컨텐츠에 대해 MD5 트랜스코딩 연산을 수행하여 매핑된 문자열을 획득한다.

단계 605: 특징 문자열과 매핑된 문자열을 비교한다. 두 문자열이 일치하면, 단계 606으로 진행한다. 두 문자열이 일치하지 않으면, 단계 607로 진행한다.

단계 606: 분석될 오더를 특징 문자열을 포함하는 클러스터에 추가한다.

그 후에, 클러스터 처리를 계속하기 위해 단계 508로 리턴한다. 컨텐츠가 악의적인 정보를 포함하면, 전송된 정보가 전달되는 것을 차단할 수 있다.

선택적인 단계에서, 분석될 오더의 매핑된 문자열이 정크 클래스로 마킹된 특정 클러스터의 특징 문자열과 동일할 때, 단계 606을 수행하지 않고 바로 단계 509로 진행한다.

또한 거래 동결 또는 계정 차단과 같은 자동 예방 조치가 오더에 대하여 수행될 수 있다.

단계 607: 단계 504로 리턴하여 클러스터링 처리를 계속 수행한다.

본 출원의 구현예의 방법 및 장치에서, 평균 이동 클러스터링 알고리즘은 전자 거래에서의 오더를 자동으로 분류하는데 사용될 수 있고, 새로운 클러스터는 오더의 실시간 컨텐츠에 기초한 분석을 통해 획득될 수 있다. 오더가 처리될 때, 오더는 트랜스코딩될 수 있다. 그 후, 오더 분류 효율을 더욱 향상시킬 수 있도록, 트랜스코딩된 오더가 특정 클러스터에서의 오더의 특징 문자열과 동일한지 여부를 결정할 수 있다. 오더는 분산 시스템의 특성을 이용함으로써, 오더 분류 효율성을 더욱 향상시키기 위해 HDFS와 같은 분산 파일 시스템으로 가져올 수 있다.

기술적인 향상을 위해, 하드웨어 향상(예를 들어, 다이오드, 트랜지스터, 스위치 등의 회로 구조에서의 향상)과 소프트웨어 향상(방법 프로세스에서의 향상)을 구별할 수 있다. 그러나, 기술이 발전함에 따라, 현재의 많은 방법 프로세스에서의 향상은, 하드웨어 회로 구조의 직접적인 향상으로 간주될 수 있다. 거의 모든 설계자는 하드웨어 회로에 대한 향상된 방법 프로세스를 프로그래밍함으로써 대응하는 하드웨어 회로 구조를 획득한다. 따라서, 하드웨어 엔티티 모듈을 사용함으로써 방법 프로세스의 향상을 구현할 수 없다고 말할 수 없다. 예를 들어, 필드 프로그래밍 가능한 게이트 어레이(FPGA)와 같은 프로그래머블 로직 디바이스(PLD)는 로직 기능이 사용자에 의해 디바이스를 프로그래밍함으로써 결정되는 그러한 집적 회로이다. 설계자는 칩 제조업체가 전용 집적 회로 칩 2를 설계하고 제조할 필요없이. 디지털 시스템을 단일 PLD에 “통합”하기 위해 프로그래밍을 수행한다. 또한, 현재, 통합 칩을 수동으로 제조하는 대신에, 대부분은 “로직 컴파일러” 소프트웨어를 사용함으로써 이러한 유형의 프로그래밍을 구현한다. 프로그래밍은 프로그램을 개발하고 작성하는 데 사용되는 소프트웨어 컴파일러와 유사하다. 오리지널 코드는 컴파일을 위해 특정 프로그래밍 언어로 작성되어야 한다. 이 언어는 하드웨어 설명 언어(hardware description language; HDL)로 지칭된다. ABEL(Advanced Boolean Expression Language), AHDL(Altera Hardware Description Language), 컨플루언스(confluence), CURL(Cornell University Programming Language), HDCal, JHDL(Java Hardware Description Language), Lava, Lola, MyHDL, PALASM, 및 RHDL(Ruby Hardware Description Language)과 같은 많은 HDL이 있다. 초고속 집적 회로 하드웨어 기술 언어(VHDL) 및 Verilog2가 가장 일반적으로 사용된다. 또한, 논리 방법 프로세스의 하드웨어 회로는, 몇몇 이전에 설명된 하드웨어 기술 언어를 통한 방법 프로세스에 대한 논리 프로그래밍을 수행하고 방법 프로세스를 집적 회로에 프로그래밍함으로써 쉽게 획득될 수 있음이 당업자에게는 명백할 것이다.

제어기는 임의의 적절한 방식으로 구현될 수 있다. 예를 들어, 제어기는 예를 들어, 마이크로프로세서 또는 프로세서 그리고 상기 마이크로프로세서 또는 프로세서에 의해 실행될 수 있는 컴퓨터 판독가능한 프로그램 코드(소프트웨어 또는 펌웨어 등)를 저장하는 컴퓨터 판독가능한 매체, 논리 게이트, 스위치, ASIC(application specific integrated circuit), 프로그램 가능한 로직 컨트롤러, 및 매립형 마이크로컨트롤러의 형태를 취할 수 있다. 제어기의 예로는 이하의 마이크로컨트롤러 즉, ARC 625D, Atmel AT91SAM, 마이크로칩(Microchip) PIC18F26K20, 및 실리콘 랩 C8051F320를 포함하지만 이들로 제한되지는 않는다. 메모리 제어기는 또한 메모리의 제어 로직의 일부로서 구현될 수 있다.

당업자는 또한 컴퓨터 판독가능한 프로그램 코드를 사용함으로써 제어기를 구현하는 것 이외에, 제어기로 하여금 논리 게이트, 스위치, 프로그램가능한 로직 컨트롤러, 프로그램가능한 로직 컨트롤러, 및 매립형 마이크로컨트롤러의 형태로 동일한 기능을 구현하게 하는 방법 단계에 대한 논리 프로그래밍이 수행될 수 있다는 것을 알고 있다. 따라서, 이러한 제어기는 하드웨어 구성요소로 간주될 수 있다. 제어기에 포함되고 다양한 기능을 구현하도록 구성된 장치는, 하드웨어 구성요소 내의 구조물로서 간주될 수 있다. 또는, 다양한 기능을 구현하도록 구성된 장치는 심지어, 상기 방법을 구현하는 소프트웨어 모듈 및 하드웨어 구성 요소의 구조물 양자로 간주될 수 있다.

앞에서 설명된 구현예에 도시된 시스템, 장치, 모듈 또는 유닛은 컴퓨터 칩 또는 엔티티에 의해 구현될 수 있거나 또는 특정 기능을 갖는 제품에 의해 구현될 수 있다.

설명을 용이하게 하기 위해, 상기 장치는 상기 기능을 다양한 유닛으로 나누어 설명된다. 물론, 본 출원이 구현될 때, 모든 유닛의 기능은 하나 이상의 소프트웨어 및/또는 하드웨어로 구현될 수 있다.

당업자가 필요한 범용 하드웨어 플랫폼에 더하여 소프트웨어를 사용함으로써 본 애플리케이션이 구현될 수 있다는 것을 명확하게 이해할 수 있음을 구현예의 설명으로부터 알 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 솔루션 또는 종래 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은, ROM/RAM, 자기 디스크, 또는 광 디스크와 같은 저장 매체에 저장될 수도 있으며, 컴퓨터 디바이스(퍼스널 컴퓨터, 서버, 또는 네트워크 디바이스)에게 본 출원의 구현예 또는 구현예의 일부에서 설명된 방법을 수행하도록 지시하는 일부 명령을 포함한다.

본 명세서에서의 구현예는 점진적인 방식으로 설명된다. 구현예에서의 동일하거나 유사한 부분에 대해서는, 서로 참조될 수도 있다. 각 구현예는 다른 구현예와의 차이점에 중점을 둔다. 특히, 시스템 구현예는 방법 구현예와 유사하므로, 간략하게 설명된다. 관련 된 부분에 대해서는, 방법 구현예의 부분적인 설명을 참조한다.

본 출원은, 많은 범용 또는 전용 컴퓨터 시스템 환경 또는 구성, 예를 들어 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 디바이스 또는 휴대용 디바이스, 평면 패널 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 소비자 디지털 디바이스, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 및 전술한 시스템들 또는 디바이스들 중 임의의 하나를 포함하는 분산 컴퓨팅 환경을 포함할 수 있다.

본 출원은 컴퓨터에 의해 실행되는 실행가능한 컴퓨터 명령, 예를 들어 프로그램 모듈의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은, 특정 작업을 실행하거나 특정 추상 데이터 유형을 구현하기 위한 루틴, 프로그램, 객체, 구성요소, 데이터 구조 등을 포함한다. 본 애플리케이션은 분산 컴퓨팅 환경에서도 실행될 수 있다. 분산 컴퓨팅 환경에서, 작업은 통신 네트워크를 통해 연결된 원격 처리 디바이스에 의해 수행된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 위치될 수 있다.

본 출원은 구현예를 통해 설명된다. 그러나, 당업자라면 본 출원의 사상을 벗어나지 않으면서 본 출원의 많은 수정 및 변형이 이루어질 수도 있음을 알 것이다. 청구범위는 본 발명의 사상을 벗어나지 않고 이러한 수정 및 변형을 포함하는 것으로 의도된다.

Claims

전자 상거래 시스템(e-commerce system)의 서버에서 오더 클러스터링(order clustering)에 기초하여 악의적인(malicious) 정보를 퇴치(combat)하는 방법에 있어서,
오더에 대한 정보에 기초하여 고유의 오더 ID와 오더 컨텐츠를 생성하는 단계(101, 301)와,
상기 오더 컨텐츠를 오더 벡터로 변환하는 단계(102, 302)와,
오더 클러스터링 결과를 획득하도록 상기 고유의 오더 ID와 상기 오더 벡터에 기초하여 클러스터링 연산(clustering operation)을 수행하는 단계(103, 303)와,
클러스터 내의 대표 오더의 컨텐츠가 악의적인 정보를 포함하는지 여부를 결정하도록 각 클러스터 내의 대표 오더의 컨텐츠를 분석하는 단계(304)와,
상기 대표 오더의 컨텐츠가 악의적인 정보를 포함하면, 악의적인 정보를 포함하는 클러스터 내의 오더에 대한 자동의 악의적인 정보 처리를 수행하는 단계(304)
를 포함하고,
상기 클러스터 내의 오더의 컨텐츠는 특징 문자열(characteristic string)로 매핑되고, 분석될 오더의 컨텐츠의 매핑된 문자열이 상기 특징 문자열과 동일할 때, 상기 분석될 오더는 상기 클러스터에 직접 추가되는 것인 악의적인 정보를 퇴치하는 방법.
제1항에 있어서, 상기 오더 컨텐츠는 상기 클러스터로부터 무작위로 선택된 오더인 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 오더는 외부 소스로부터 사용자에게 전달되는 정보를 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 고유의 오더 ID와 오더 컨텐츠를 생성하는 단계는,
상기 오더에 대한 정보에서의 사용자 ID, 오더 ID, 및 서비스 유형에 기초하여 상기 고유의 오더 ID를 생성하는 단계와,
상기 오더에 대한 정보에서의 오더 타이틀 또는 오더 리마크(remark)에 기초하여 상기 오더 컨텐츠를 생성하는 단계
를 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제4항에 있어서, 상기 오더 타이틀은 제품 설명 및 오더 설명을 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제4항에 있어서, 상기 오더 리마크는 상기 오더를 개시하는 외부 소스의 홍보 정보(promotional information)를 포함하는 것인 악의적인 정보를 퇴치하는 방법.
삭제
제1항에 있어서, 상기 분석될 오더의 오더 컨텐츠의 매핑된 문자열이 상기 특징 문자열과 동일할 때, 상기 방법은, 상기 클러스터가 정크 클래스(junk class)로서 마킹되었을 때, 상기 분석될 오더에 대한 악의적인 정보 처리를 직접 수행하는 단계를 더 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 클러스터 내의 대표 오더의 컨텐츠가 악의적인 정보를 포함하는지 여부를 결정하는 것은, 키워드에 기초하는 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 악의적인 정보를 포함하는 클러스터 내의 오더에 대한 자동의 악의적인 정보 처리를 수행하는 단계는, 상기 클러스터 내의 사용자 ID를 기록하는 단계, 상기 사용자 ID를 상기 사용자 ID를 금지하는 관리자에게 전송하는 단계, 상기 사용자 ID에 경보 정보를 전송하는 단계, 거래를 동결하는 단계, 또는 상기 오더와 연관되는 사용자 계정을 차단하는 단계 중 하나 이상을 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 클러스터링 연산은 논파라메트릭(non-parametric) 다중 모델(multi-model) 분할 방법인 평균 이동(mean-shift) 클러스터링 알고리즘을 포함하는 것인 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 오더를 하둡 분산 파일 시스템(Hadoop distributed file system; HDFS)으로 가져오는(import) 단계를 더 포함하는 악의적인 정보를 퇴치하는 방법.
제1항 또는 제2항에 있어서, 상기 오더 컨텐츠를 오더 벡터로 변환하는 단계는, 상기 오더 컨텐츠를 TF-IDF(term frequency-inverse document frequency) 벡터로 변환하는 단계를 포함하는 것인 악의적인 정보를 퇴치하는 방법.
전자 거래에서의 오더 클러스터링을 위한 장치로서,
제1항 또는 제2항의 방법을 수행하도록 구성된 복수의 모듈을 포함하는, 전자 거래에서의 오더 클러스터링을 위한 장치.