KR102576231B1 - Natural language processing method for identification of counterfeit products and counterfeit product detection system - Google Patents
Natural language processing method for identification of counterfeit products and counterfeit product detection system Download PDFInfo
- Publication number
- KR102576231B1 KR102576231B1 KR1020220155528A KR20220155528A KR102576231B1 KR 102576231 B1 KR102576231 B1 KR 102576231B1 KR 1020220155528 A KR1020220155528 A KR 1020220155528A KR 20220155528 A KR20220155528 A KR 20220155528A KR 102576231 B1 KR102576231 B1 KR 102576231B1
- Authority
- KR
- South Korea
- Prior art keywords
- counterfeit
- product
- products
- keywords
- module
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
실시예에 따른 위조품 탐지 시스템은 온라인에서 위조품을 효율적으로 식별하기 위한 위조품을 암시하는 키워드 검출 로직을 제안한다. 실시예에서는 브랜드의 온라인상 거래 제품과 가격을 군집화(clustering)하고 위조품이 의심되는 가격 범주의 상품 제목 중 상품과 직접적인 관련성이 있는 키워드를 색인화한다. 이후, 상품과 직접적인 관련성이 있는 키워드 중 특히 브랜드명과 유사한 특징을 가지는 단어를 검출한다. 실시예에서는 단일 조건으로 위조품을 검출할 경우 부정확한 결과가 다수 포함될 수 있으므로, 정확성을 높이기 위해서 두가지 이상의 조건을 조합하는 로직으로 위조품 탐지 확률을 높인다.The counterfeit detection system according to the embodiment proposes keyword detection logic suggesting counterfeit products to efficiently identify counterfeit products online. In the embodiment, the brand's online transaction products and prices are clustered, and keywords directly related to the product are indexed among product titles in the price category where counterfeit products are suspected. Afterwards, among keywords directly related to the product, words with characteristics similar to the brand name are detected. In the embodiment, when detecting a counterfeit product using a single condition, many inaccurate results may be included, so the probability of detecting a counterfeit product is increased by using logic that combines two or more conditions to increase accuracy.
Description
본 개시는 온라인상의 위조품 식별을 위한 자연어 처리 방법 및 이를 이용한 위조품 탐지 시스템에 관한 기술로 구체적으로, 위조품에 특화된 자연어 처리를 통해 온라인에서 판매되는 위조품을 효율적으로 식별하는 시스템 및 방법에 관한 것이다.This disclosure relates to a technology related to a natural language processing method for identifying counterfeit products online and a counterfeit product detection system using the same. Specifically, it relates to a system and method for efficiently identifying counterfeit products sold online through natural language processing specialized for counterfeit products.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.Unless otherwise indicated herein, the material described in this section is not prior art to the claims of this application, and is not admitted to be prior art by inclusion in this section.
2017년 기준 국내 위조상품 판매 규모는 26조원으로 매년 지속적으로 성장하고 있다. 하지만, 실제 단속 실적은 682억원으로 전체 시장의 0.26%에 불과하다. 위조 상품 시장 규모는 해외 직구를 통해 국내 브랜드의 위조품이 역수입되어 커지는 추세이다. 또한, SNS를 이용한 오픈마켓을 통해 생계형 레플리카 형태로 조직화되고 있다. 뿐만 아니라 오픈마켓의 자동 등록 기능을 이용해 대량의 위조품 개별 상점을 운영하거나 새벽 시간대 판매, 폐쇄형 상점 운영 등의 게릴라식 판매가 빈번히 발생하고 있어, 위조상품의 지능화된 판매 행태가 지속으로 확장되고 있다.As of 2017, the domestic counterfeit product sales amounted to 26 trillion won and continues to grow every year. However, the actual crackdown performance is 68.2 billion won, which is only 0.26% of the total market. The size of the counterfeit product market is growing due to the reimportation of counterfeit products from domestic brands through overseas direct purchases. In addition, it is being organized in the form of a livelihood replica through an open market using SNS. In addition, guerrilla sales such as operating individual stores of large quantities of counterfeit products using the automatic registration function of open markets, selling during early morning hours, and operating closed stores are frequently occurring, and the intelligent sales behavior of counterfeit products is continuously expanding.
최근에는 한류 컨텐츠 보급으로 국내 인기 브랜드에 대한 위조품 제작 사이클이 단축되고, 구매력이 약한 젊은 층의 위조품 이용에 대한 문제 의식이 무뎌는 추세이다. 또한, 온라인 상품 리뷰에만 평균 125MM(20,000H)가 소요되어, 복잡하고 지능화된 위조품 판매를 인력으로 단속하기는 사실상 불가능하다. 이 때문에 종래에는 온라인상의 위조품 판매 단속을 위해 국내외에서 위조품 검색 프로그램이 이용되고 있다. Recently, the production cycle of counterfeit products for popular domestic brands has been shortened due to the spread of Korean Wave content, and young people with weak purchasing power are becoming less aware of the problem of using counterfeit products. In addition, it takes an average of 125MM (20,000H) just to review online products, making it virtually impossible to crack down on the sale of complex and intelligent counterfeit products with human resources. For this reason, counterfeit product search programs have been used both domestically and internationally to crack down on the sale of counterfeit products online.
종래 위조품 검색 프로그램은 자연어 처리 기술의 정보 추출 기능을 활용한다. 정보 추출 기능은 개체명 인식과 관계 추출로 나뉘어 진다. 일정한 목적을 가진 단어나 키워드를 추출하기 위해, 종래에는 개체명 인식의 형태소분석을 통해서 의미 있는 단어를 추출한다. 하지만, 형태소 분석을 통한 키워드 추출방식은 위조품 탐지 목적으로 적합치 않은 경우가 많다. 예컨대, “샤 넬”, “발 렌시아가” 와 같이 의도적으로 브랜드 명 가운데 공백을 넣어서 키워드를 만드는 경우, 종래의 위조품 검색 프로그램은 공백 전후를 분리하여 다른 단어와 의미로 인식하기 때문에 확장된 키워드를 이용한 위조품 검색이 불가능하다.Conventional counterfeit search programs utilize the information extraction function of natural language processing technology. The information extraction function is divided into entity name recognition and relationship extraction. In order to extract words or keywords with a certain purpose, meaningful words are conventionally extracted through morphological analysis of entity name recognition. However, the keyword extraction method through morphological analysis is often not suitable for the purpose of detecting counterfeit products. For example, when a keyword is created by intentionally inserting a space in the brand name, such as “Chanel” or “Balenciaga,” a conventional counterfeit search program separates before and after the space and recognizes it as a different word and meaning, resulting in an expanded keyword. It is impossible to search for counterfeit products using .
실시예에 따른 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템은 브랜드의 온라인상 거래되는 제품과 가격을 군집화(clustering)하고 위조품이 의심되는 가격 범주의 상품 제목 중 상품과 직접 관련성이 있는 키워드를 색인화한다. 이후, 관련성이 있는 키워드 중 특히 브랜드명과 유사 특징을 가지는 단어를 검출한다. The natural language processing method and counterfeit detection system for identifying counterfeit products according to an embodiment clusters products and prices traded online of a brand and indexes keywords directly related to the product among product titles in the price category where counterfeit products are suspected. do. Afterwards, words with similar characteristics to the brand name are detected among relevant keywords.
단일 조건으로 위조품을 검출할 경우 부정확한 결과가 다수 포함되기 때문에, 실시예에서는 위조품 식별 정확성을 높이기 위해서 두가지 이상의 위조품 식별 조건을 조합하는 로직으로 위조품 탐지 확률을 향상시킨다. 이때, 위조품 식별 조건을 위한 요소로는 타이틀에서 추출한 키워드, 본문의 내용이나 댓글, 위조품 판매 이력이 있는 판매자(블랙리스트), 위조품군의 특징적인 가격, 위조품의 특징적인 경향성이 있는 이미지 등의 조건이 포함될 수 있다. Since many inaccurate results are included when detecting a counterfeit product using a single condition, in the embodiment, the probability of detecting a counterfeit product is improved by using logic that combines two or more counterfeit identification conditions to increase the accuracy of counterfeit product identification. At this time, the elements for identifying counterfeit products include keywords extracted from the title, content or comments in the text, sellers with a history of selling counterfeit products (blacklist), characteristic prices of counterfeit products, and images with a characteristic tendency of counterfeit products. This may be included.
또한, 실시예에서는 검출된 잠재적인 위조품을 사용자가 식별하여 확정하고 분류한 후에 쉽게 제재조치를 용이하게 진행하는 플랫폼을 제공한다.Additionally, the embodiment provides a platform that facilitates sanctions after the user identifies, confirms, and classifies the detected potential counterfeit products.
또한, 상표감시 기술을 응용하여 브랜드의 외관, 칭호, 관념 등과 관련성을 가지는 하나의 텍스트 덩어리를 추출함으로써, 변칙적으로 사용되는 위조품 암시 키워드의 패턴을 추출한다.In addition, by applying trademark surveillance technology to extract a chunk of text that is related to the brand's appearance, title, concept, etc., patterns of keywords suggesting counterfeit products that are used irregularly are extracted.
실시예에 따른 위조품 판매 웹 식별을 위한 자연어 처리 방법에 있어서,(A)전처리모듈에서 위조품관련 웹페이지 샘플 추출을 위해 브랜드명과 제품군을 검색 조건으로 설정하여 웹 크롤링(web crawling)을 수행하는 단계; (B)검색어 설정모듈에서 검색엔진에서 검색되는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정하는 단계;(C)위조품판단 데이터 생성모듈에서 설정된 초기 검색어로 검색된 결과값을 제목, 가격, 판매자, 설명문구, 이미지, 댓글, 카테고리, 제품구분을 포함하는 검색결과 요소데이터로 각각 저장하는 단계;(D)클러스터링 모듈에서 수집된 데이터를 가격, 판매자, 숫자를 포함하는 우선데이터 기준으로 군집화(Clustering)하는 단계; (E)키워드 추출모듈에서 군집화된 그룹 각각의 키워드를 추출하고 추출된 키워드를 통해 위조품 암시 키워드를 파악하는 단계; (F)판단모듈에서 상기 파악된 위조품 암시 키워드를 통해 웹페이지의 위조품을 식별하고 웹페이지의 상품 설명 문구와 댓글분석 결과에 따라 특이 상품을 구분하는 단계; 및 (G) 위조품 판매웹 관리모듈에서 탐지된 위조품의심 제품을 제품군 및 판매자군 별로 그룹화하여 관리하고, 위조품 판매자가 확정되는 경우 온라인 경고장을 위조품 판매자에게 발송하고, 플랫폼 경고 조치 후에도 제거되지 않는 위조품만을 별도로 리포팅 하는 단계; 를 포함한다. In the natural language processing method for identifying counterfeit product sales webs according to an embodiment, (A) performing web crawling by setting brand name and product line as search conditions to extract samples of counterfeit web pages in a preprocessing module; (B) Setting the initial search term based on the search term related to the brand name searched in the search engine in the search term setting module; (C) The result value searched by the initial search term set in the counterfeit product judgment data generation module is divided into title, price, seller, and description. Step of storing each search result element data including phrases, images, comments, categories, and product classifications; (D) Clustering the data collected in the clustering module based on priority data including price, seller, and number step; (E) Extracting keywords from each clustered group in the keyword extraction module and identifying keywords suggestive of counterfeit products through the extracted keywords; (F) identifying counterfeit products on a web page through the identified counterfeit product suggestive keywords in the judgment module and classifying unique products according to product description text on the web page and comment analysis results; and (G) Group and manage suspected counterfeit products detected in the counterfeit sales web management module by product group and seller group. If the counterfeit seller is confirmed, an online warning letter is sent to the counterfeit seller, and only counterfeit products that are not removed even after platform warning measures are taken. Separate reporting steps; Includes.
바람직하게, (D)의 단계; 는 클러스터링 모듈에서 그룹 생성시 군집화의 기준이 가격인 경우, 상품 판매가격의 상위구간 및 하위구간을 구분하는 단계; 및 구분된 상위구간과 하위구간의 판매자 수에 따라 정품간주구간 및 가품간주구간을 설정하는 단계; 를 포함하고, (F) 단계; 는 위조품이 포함된 이미지, 모자이크 처리가 된 이미지를 포함하는 특정 이미지들의 패턴을 파악하여 위조품의 경향성을 판단하는 단계; 위조품과 연관된 이미지 및 이미지 패턴 데이터를 위조품 의심 조건으로 설정하는 단계; 및 동종 영역에서 영역별 경향성을 가진 이미지셋(image set)을 학습하는 단계; 를 포함한다.Preferably, step (D); When the standard for clustering when creating a group in the clustering module is price, the step of distinguishing the upper and lower sections of the product sales price; and setting a genuine product section and a counterfeit section according to the number of sellers in the upper section and lower section; It includes step (F); Determining the tendency of counterfeit products by identifying patterns of specific images, including images containing counterfeit products and mosaic-processed images; Setting image and image pattern data associated with a counterfeit product as a condition for suspecting a counterfeit product; and learning an image set with region-specific tendencies in the same region; Includes.
이상에서와 같은 이상에서와 같은 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템은, 종래 위조품 탐지 솔루션이 “위조품”의 탐지만을 목적으로 하는데 반해, 보다 포괄적인 지재권 침해품까지 탐지할 수 있다. 실시예에서 제공하는 포괄적인 지재권 침해품 탐지 기능에는 해당 브랜드의 명칭을 도용하여 타 제품을 홍보하는 상표명 도용 홍보 행위, 제품을 다시 제작하여 제3의 부가가치를 창출하는 커스텀 제품, 브랜드의 부품을 이용하여 본품인 것처럼 판매하는 행위 등이 포함된다. The natural language processing method and counterfeit detection system for identifying counterfeit products as described above can detect a more comprehensive range of products that infringe intellectual property rights, while conventional counterfeit detection solutions aim only to detect “counterfeit products.” The comprehensive intellectual property rights infringement product detection function provided in the embodiment includes brand name theft promotional activities that promote other products by stealing the name of the brand, custom products that create third added value by remanufacturing the product, and use of the brand's parts. This includes selling the product as if it were the original product.
실시예를 통해, 온라인 시장에서 만연한 위조품을 효과적으로 제거함으로써 위조품 구매 수요의 약 10%~40% 이상을 정품 구매로 전환시켜 기업 수익을 향상시키고, 국가 경제 발전에 기여할 수 있다. 아울러, 위조품 이슈를 효율적으로 대처함으로 위조품 대응 활동보다 부가 가치가 높은 기업 고유 핵심 역량에 기업의 자원이 집중되도록 한다. 또한, 위조품을 효과적으로 제거함으로써, 지적재산권을 중시하고 R&D에 재투자 하는 선순환적 사회적 분위기 조성에 이바지한다. By way of example, by effectively eliminating counterfeit products prevalent in the online market, approximately 10% to 40% or more of the demand for purchasing counterfeit products can be converted to purchasing genuine products, thereby improving corporate profits and contributing to national economic development. In addition, by efficiently dealing with counterfeit issues, the company's resources can be focused on the company's unique core competencies that have higher added value than counterfeit response activities. In addition, by effectively eliminating counterfeit products, it contributes to creating a virtuous social atmosphere that values intellectual property rights and reinvests in R&D.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.The effects of the present invention are not limited to the effects described above, and should be understood to include all effects that can be inferred from the configuration of the invention described in the detailed description or claims of the present invention.
도 1은 실시예에 따른 위조품 탐지 시스템의 데이터 처리 블록을 나타낸 도면
도 2는 실시예에 따른 키워드 추출모듈(500)의 데이터 처리 블록을 나타낸 도면
도 3은 실시예에 따른 위조품 탐지 시스템의 자연어 처리 과정을 나타낸 도면
도 4는 실시예에 따른 위조품 식별을 위한 키워드 추출과정을 나타낸 도면1 is a diagram showing a data processing block of a counterfeit detection system according to an embodiment.
Figure 2 is a diagram showing a data processing block of the keyword extraction module 500 according to an embodiment.
Figure 3 is a diagram showing the natural language processing process of a counterfeit product detection system according to an embodiment
Figure 4 is a diagram showing a keyword extraction process for identifying counterfeit products according to an embodiment.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. The present embodiments are merely provided to ensure that the disclosure of the present invention is complete and to provide common knowledge in the technical field to which the present invention pertains. It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims. Like reference numerals refer to like elements throughout the specification.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. The terms described below are terms defined in consideration of functions in embodiments of the present invention, and may vary depending on the intention or custom of the user or operator. Therefore, the definition should be made based on the contents throughout this specification.
도 1은 실시예에 따른 위조품 탐지 시스템의 데이터 처리 블록을 나타낸 도면이다. 1 is a diagram showing a data processing block of a counterfeit product detection system according to an embodiment.
도 1을 참조하면, 실시예에 따른 위조품 탐지 시스템은 전처리모듈(100), 검색어 설정모듈(200), 위조품 판단 데이터 생성모듈(300), 클러스터링 모듈(400), 키워드 추출모듈(500), 판단모듈(600) 및 위조품 판매웹 관리모듈(700)을 포함하여 구성될 수 있다. 본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.Referring to FIG. 1, the counterfeit detection system according to the embodiment includes a preprocessing module 100, a search word setting module 200, a counterfeit product judgment data generation module 300, a clustering module 400, a keyword extraction module 500, and a judgment It may be configured to include a module 600 and a counterfeit product sales web management module 700. The term 'module' used in this specification should be interpreted to include software, hardware, or a combination thereof, depending on the context in which the term is used. For example, software may be machine language, firmware, embedded code, and application software. As another example, hardware may be a circuit, processor, computer, integrated circuit, integrated circuit core, sensor, Micro-Electro-Mechanical System (MEMS), passive device, or a combination thereof.
전처리모듈(100)은 위조품 관련 웹페이지 샘플 추출을 위해 웹 크롤링(web crawling)을 수행한다. 실시예에서 웹 크롤링은 C#, 파이썬 등이 소프트웨어 및 MS-SQL 데이터베이스를 이용하여 웹 사이트에서 특정 정보를 추출할 수 있다.The preprocessing module 100 performs web crawling to extract samples of web pages related to counterfeit products. In an embodiment, web crawling may extract specific information from a website using C#, Python, etc. software and an MS-SQL database.
실시예에서 전처리모듈(100)은 500곳 이상의 쇼핑몰과 SNS에서 해당 브랜드명과 제품군을 검색 조건으로 설정하고, 설정된 검색 조건에 따라 검색을 수행하여 샘플 추출용 웹 크롤링을 수행한다. 실시예에서 전처리 모듈(100)은 검색 조건을 순차적으로 확장시켜 반복 검색하고, 각각의 검색 결과를 웹 크롤링 할 수 있다. 예컨대, 전처리 모듈(100)은 복수개의 검색 조건 설정 후, 설정된 검색 조건을 조합하여 검색 조건을 확장하고, 확장된 검색조건에 따라 검색된 웹페이지를 크롤링한다. 구체적으로, 제1 검색 조건으로 브랜드 명을 설정하고, 제2 검색 조건으로 상품군, 제3 검색 조건으로 가격범위, 제4 검색 조건으로 상품명을 설정한다. 실시예에서는 설정된 제1검색 조건 내지 제4검색조건에서 적어도 하나를 추출하고, 추출된 검색조건을 조합하여 확장된 검색조건을 생성한다. 이후, 확장된 검색 조건 각각에 대해 검색을 수행하고 검색 결과를 크롤링 할 수 있다. 실시예에서 검색 조건은 브랜드 명과 상품군, 상품 세부정보에 따라 추가될 수 있다. In the embodiment, the preprocessing module 100 sets the brand name and product line as search conditions in more than 500 shopping malls and SNS, performs a search according to the set search conditions, and performs web crawling for sample extraction. In an embodiment, the preprocessing module 100 may sequentially expand search conditions to repeatedly search, and web crawl each search result. For example, after setting a plurality of search conditions, the preprocessing module 100 expands the search conditions by combining the set search conditions, and crawls the searched web pages according to the expanded search conditions. Specifically, the brand name is set as the first search condition, the product group is set as the second search condition, the price range is set as the third search condition, and the product name is set as the fourth search condition. In the embodiment, at least one of the set first to fourth search conditions is extracted, and the extracted search conditions are combined to create an expanded search condition. Afterwards, you can perform a search for each of the expanded search conditions and crawl the search results. In an embodiment, search conditions may be added based on brand name, product group, and product details.
검색어 설정모듈(200)은 웹 크롤링 결과에 따라 주요 검색엔진에서 검색되는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정한다. 예컨대, 검색어 설정모듈(200)은 주요 검색엔진에서 가장 많이 검색이 이루어지는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정할 수 있다. 구체적으로, 샤넬의 경우 샤넬 가방, 샤넬 카드지갑, 샤넬 넘버5, 샤넬 클러치백, 샤넬 가브리 엘 호보백, 샤넬 핸드크림, 샤넬 목걸이, 샤넬 귀걸이 샤넬 클래식 미듐 등으로 초기 검색어를 설정한다. The search term setting module 200 sets an initial search term based on search terms related to the brand name searched in major search engines according to web crawling results. For example, the search word setting module 200 can set an initial search term based on search terms related to the brand name that is most searched in major search engines. Specifically, in the case of Chanel, the initial search term is set to Chanel bag, Chanel card wallet, Chanel No. 5, Chanel clutch bag, Chanel Gabrielle hobo bag, Chanel hand cream, Chanel necklace, Chanel earrings, Chanel Classic Medium, etc.
위조품 판단 데이터 생성모듈(300)은 설정된 초기 검색어로 검색된 결과값을 제목, 가격, 판매자, 설명문구, 이미지, 댓글, 카테고리, 제품구분을 포함하는 검색결과 요소 데이터로 각각 저장한다.The counterfeit product judgment data generation module 300 stores the search results with the set initial search term as search result element data including title, price, seller, description, image, comment, category, and product classification.
클러스터링 모듈(400)은 수집된 데이터를 가격과 판매자 숫자를 포함하는 우선데이터 기준으로 군집화(Clustering)하여 그룹을 생성한다. 그룹 생성시 군집화의 기준이 가격인 경우, 클러스터링 모듈(400)은 상품 판매가격의 상위구간 및 하위구간을 구분하고, 구분된 상위구간과 하위구간의 판매자 수에 따라 정품간주구간 및 가품간주구간을 설정할 수 있다. 예컨대, 클러스터링 모듈(400)에서는 수집된 데이터를 우선 가격과 판매자 숫자를 기준으로 군집화 하여 그룹을 생성한다. 구체적으로, 군집화의 기준은 전체 가격 범위 중 상위 1~60%에서 다수의 판매자가 모여 있는 구간을 정품간주구간 (기준점에서 위/아래 15%, H그룹), 상위 61~100% 가격 구간에서 다수의 판매자가 모여 있는 구간을 가품간주구간(위/아래 기준으로 15%, L그룹)으로 설정할 수 있다. 또한, 클러스터링 모듈(400)은 이미 축적된 위조품 판매자인 블랙리스트가 해당 상품군에서 판매하는 상품의 가격을 기준으로 가품간주구간을 설정할 수 있다.The clustering module 400 creates groups by clustering the collected data based on priority data including price and number of sellers. When the basis for clustering when creating a group is price, the clustering module 400 divides the upper and lower sections of the product sales price, and determines the section considered genuine and the section considered counterfeit according to the number of sellers in the divided upper section and lower section. You can set it. For example, the clustering module 400 first clusters the collected data based on price and number of sellers to create groups. Specifically, the standard for clustering is the section where a large number of sellers are gathered in the top 1~60% of the entire price range, the section considered genuine (15% above/below the reference point, Group H), and the section where the majority of sellers are gathered in the top 61~100% of the price range. The section where sellers are gathered can be set as the fake product section (15% above/below, L group). In addition, the clustering module 400 can set a counterfeit product consideration section based on the prices of products sold in the corresponding product group by a blacklist of counterfeit product sellers that has already been accumulated.
키워드 추출모듈(500)은 군집화된 그룹 각각의 키워드를 추출하고 추출된 키워드를 통해 위조품 암시 키워드를 파악한다.The keyword extraction module 500 extracts keywords from each clustered group and identifies keywords suggestive of counterfeit products through the extracted keywords.
판단모듈(600)은 파악된 위조품 암시 키워드를 통해 위조품을 식별한다. 실시예에서 판단모듈(600)은 특정 이미지들의 패턴을 파악하여 위조품의 경향성을 판단할 수 있다. 또한 실시예에서 판단모듈(600)은 구글 비전의 AUTOML 등을 통해 이미지를 기반으로 위조품의 경향성을 판단할 수 있다. 예컨대, 판단모듈(600)은 특정 이미지들의 패턴으로 위조품의 경향성을 판단할 수 있다. 구체적으로, 특정 이미지들은 a) 모델 얼굴에 모자이크 처리된 이미지, b) 제품의 로고 부분에 모자이크 처리된 이미지, c) 모델의 문신이 포함된 이미지, d) 마스크를 쓴 모델의 이미지, e)유명 연예인의 스트리트 이미지, f)스마트폰으로 얼굴을 일정수준이상 가린 이미지, g) 위조품을 제조하는 공장에서 특정 배경을 기반으로 일련의 시리즈 위조품 사진을 촬영할 때의 배경 이미지 등 위조품과 연관된 이미지를 포함한다. 판단모듈(600)은 위조품과 연관된 이미지 및 이미지 패턴 데이터를 위조품 의심 조건으로 설정할 수 있다. The judgment module 600 identifies counterfeit products through the identified counterfeit product suggestive keywords. In an embodiment, the judgment module 600 may determine the tendency of counterfeit products by identifying patterns of specific images. Additionally, in the embodiment, the judgment module 600 may determine the tendency of counterfeit products based on images through Google Vision's AUTOML, etc. For example, the judgment module 600 may determine the tendency of counterfeit products based on patterns of specific images. Specifically, specific images include: a) a pixelated image of the model's face, b) a pixelated image of the product's logo, c) an image containing the model's tattoo, d) an image of the model wearing a mask, and e) a famous image. It includes images related to counterfeit products, such as street images of celebrities, f) images with faces covered to a certain level with a smartphone, and g) background images when a series of photos of counterfeit products are taken based on a specific background at a factory manufacturing counterfeit products. . The judgment module 600 may set image and image pattern data associated with a counterfeit product as conditions for suspecting a counterfeit product.
또한, 의류, 가방 등의 동종 영역에서 사용되는 위조품의 경우는 비슷한 경향성을 가지게 되므로, 판단모듈(600)은 영역별 경향성을 가진 이미지셋(image set)을 구글 비전의 AUTOML을 통해서 학습한다. 실시예에서 판단모듈(600)은 패턴별로 최소 300장, 바람직하게는 2,000장 정도의 이미지를 기계학습(Machine Learning)한다. 실시예에서 경향성 판별 데이터셋(data set)은 브랜드 중립적인 이미지 중심으로 새로운 이미지의 경향 판단 시 최소 70% 이상의 정확도를 유지할 수 있도록 기본 데이터셋을 유지한다. In addition, since counterfeit products used in the same area, such as clothing and bags, have similar tendencies, the judgment module 600 learns an image set with a tendency for each area through Google Vision's AUTOML. In the embodiment, the judgment module 600 performs machine learning on at least 300 images for each pattern, preferably about 2,000 images. In the embodiment, the tendency determination data set is centered on brand-neutral images and the basic data set is maintained to maintain at least 70% accuracy when determining the trend of a new image.
판단모듈(600)은 위조품의 경향성 이미지셋과 유사도가 일정수준 (예컨대, 70%) 넘는 이미지는 위조품의 하나의 요소로 결정한다. 판단모듈(600)은 가격, 판매자, 댓글, 키워드 등의 다른 요소를 중첩으로 고려하여 최종적으로 위조품을 선별한다. The judgment module 600 determines an image that has a similarity over a certain level (e.g., 70%) with the image set that tends to be a counterfeit product as an element of the counterfeit product. The judgment module 600 considers other factors such as price, seller, comments, keywords, etc. in overlap and finally selects counterfeit products.
또한 실시예에서 판단모듈(600)은 해당 브랜드에서만 특징적으로 사용하는 위조품의 이미지의 경우 사용자 확인후 단독 선별조건으로 활용할 수 있다. 이때 위조품의 이미지는 위조품을 제조하는 공장에서 위조품 제품의 홍보를 위하여 별도의 스튜디오 촬영을 한 제품의 이미지 등을 포함한다.Additionally, in the embodiment, the judgment module 600 can be used as a sole selection condition after user confirmation in the case of an image of a counterfeit product that is characteristically used only by the corresponding brand. At this time, the image of the counterfeit product includes images of the product taken in a separate studio to promote the counterfeit product at the factory that manufactures the counterfeit product.
또한, 판단모듈(600)은 위조품 및 커스텀 제품을 암시하는 기설정된 텍스트를 기준으로 웹페이지 상품 설명 텍스트와 댓글을 분석하고, 분석결과에 따라 위조품을 파악할 수 있다. 예컨대 판단모듈(600)은 상품 설명 문구와 댓글 분석 결과에 따라 특이 상품을 구분할 수 있다. 구체적으로, 위조품 식별 시스템 데이터베이스에서 관리되는 지정된 업체 및 위조품 취급 데이터와 상품설명에 등록된 제조사와 수입원이 다른 경우, 제조사와 수입원이 지정된 곳이 아닌 경우, 댓글에 정품 문의가 있는 경우, 본문에서 “커스텀”, “중국OEM”“레플리카”, “정품문의”, “주문제작” 등의 위조품/커스텀 제품을 암시하는 설명 문구를 구분하여 위조품을 식별할 수 있다. In addition, the judgment module 600 analyzes web page product description text and comments based on preset text suggesting counterfeit products and custom products, and can identify counterfeit products according to the analysis results. For example, the judgment module 600 can distinguish unique products based on product description phrases and comment analysis results. Specifically, if the manufacturer and import source registered in the product description are different from the designated company and counterfeit product handling data managed in the counterfeit identification system database, if the manufacturer and import source are not designated, or if there is an inquiry about genuine products in the comments, the main text reads “ You can identify counterfeit products by distinguishing between explanatory phrases that imply counterfeit/custom products, such as “custom”, “Chinese OEM”, “replica”, “genuine inquiry”, “custom made”, etc.
실시예에서 판단모듈(600)은 위조품 탐지용 크롤링(crawling)을 실행하고 실행 결과를 분석한 결과에 따라 위조품 확정 게시물을 웹 크롤링(Web crawling)으로 수집한다. 판단모듈(600)은 크롤링 실행결과가 위조품 암시 키워드를 포함하거나, 가품간주구간에 포함되거나, 블랙리스트에 포함되거나, 위조품을 암시하는 댓글 및 본문 텍스트를 포함하거나 위조품 경향성의 이미지를 포함하는 경우 중 적어도 두 가지를 충족하는 경우 크롤링된 게시물을 위조품으로 확정할 수 있다. 또한, 판단모듈(600)은 웹에서 분석된 이미지가 위조품 판매 전용 이미지로 판단된 경우, 크롤링된 게시물을 위조품으로 확정할 수 있다.In an embodiment, the determination module 600 executes crawling for detecting counterfeit products and collects posts confirming counterfeit products through web crawling according to the results of analyzing the execution results. The judgment module 600 determines whether the crawling execution result includes a keyword suggesting a counterfeit product, is included in a counterfeit section, is included in a blacklist, includes comments and body text suggesting a counterfeit product, or includes an image with a tendency to counterfeit product. If at least two conditions are met, the crawled post can be confirmed as counterfeit. Additionally, if the image analyzed on the web is determined to be an image exclusively for selling counterfeit products, the judgment module 600 may determine that the crawled post is a counterfeit product.
위조품 판매웹 관리모듈(700)은 1차 탐지된 위조품 의심 제품을 제품정보 및 판매자정보 별로 그룹화하고 아이템 또는 셀러별로 위조품 판매자를 확정하여 관리한다. 또한, 윈도우 서버, 닷넷 플랫폼, MS-SQL 등의 웹 베이스 위조품 관리 플랫폼을 통해 위조품 데이터를 관리할 수 있다. 예컨대, 위조품 판매웹 관리모듈(700)은 1차 탐지된 위조품의심 제품을 제품군 및 판매자군 별로 그룹화하는 경우, 셀러는 명칭, 사업자 번호, 전화번호 기준으로 그룹화한다. 실시예를 통해, 위조품 판매웹 관리모듈(700)은 셀러가 각각 별도의 쇼핑몰에서 제품을 판매하더라도 하나의 셀러 아이디로 관리할 수 있다. 이를 통해, 브랜드 관리자는 아이템 또는 셀러별로 위조품 판매자를 관리할 수 있다. 실제 위조품 판매 시장에서는 50~80 여개의 셀러가 5,000건을 넘는 위조품을 판매하는 경우가 많으므로, 위조품 셀러 별 관리는 많은 위조품을 일일이 확인하는데 소요되는 데이터 처리과정을 절감하는 장점을 제공한다. The counterfeit sales web management module 700 groups the initially detected suspected counterfeit products by product information and seller information, and determines and manages the counterfeit seller by item or seller. In addition, counterfeit product data can be managed through web-based counterfeit product management platforms such as Windows Server, .NET platform, and MS-SQL. For example, when the counterfeit product sales web management module 700 groups the initially detected suspected counterfeit products by product group and seller group, sellers are grouped based on name, business number, and phone number. Through an embodiment, the counterfeit product sales web management module 700 can manage sellers with one seller ID even if each seller sells a product in a separate shopping mall. Through this, brand managers can manage counterfeit sellers by item or seller. In the actual counterfeit product sales market, 50 to 80 sellers often sell more than 5,000 counterfeit products, so managing each counterfeit product seller provides the advantage of reducing the data processing required to individually check many counterfeit products.
또한 실시예에 따른 위조품 판매웹 관리모듈(700)은 위조품 판매자가 확정되면 시스템에서 정의한 온라인 경고장 형식으로 위조품 판매자에게 경고장 발송하거나, 제휴 로펌에게 정보를 전달하여 별도의 법률 조치 취하도록 한다. 또한, 쇼핑몰 플랫폼의 자동 신고 기능을 통해서 위조품 신고할 수 있다. 또한, 실시예에서 확정된 위조품 판매자는 블랙리스트로 관리하여 다른 브랜드의 위조품 탐지에도 활용할 수 있다.In addition, the counterfeit product sales web management module 700 according to the embodiment sends a warning to the counterfeit product seller in the form of an online warning letter defined by the system when the counterfeit product seller is confirmed, or transfers the information to an affiliated law firm to take separate legal action. Additionally, counterfeit products can be reported through the automatic reporting function of the shopping mall platform. In addition, sellers of counterfeit products confirmed in the embodiment can be managed in a blacklist and used to detect counterfeit products of other brands.
위조품 판매웹 관리모듈(700)은 판매되는 위조품의 가격, 판매자, 쇼핑몰을 통계 자료로 생성하여 출력하고, 단속 대상 셀러, 아이템 별로 통계를 생성하여 자동 리포트를 수행할 수 있다. 또한, 플랫폼 경고 조치 후에도 제거되지 않는 위조품만을 별도로 리포팅 한다.The counterfeit product sales web management module 700 generates and outputs statistical data on the price, seller, and shopping mall of counterfeit products being sold, and generates statistics for each seller and item subject to crackdown to perform an automatic report. In addition, only counterfeit products that are not removed even after platform warning measures are reported separately.
도 2는 실시예에 따른 키워드 추출모듈(500)의 데이터 처리 블록을 나타낸 도면이다. Figure 2 is a diagram showing a data processing block of the keyword extraction module 500 according to an embodiment.
도 2를 참조하면, 키워드 추출모듈(500)은 필터링부(510), 변환부(520), 부분일치 키워드 추출부(530), 키워드 추출부(540) 및 위조품 암시 키워드 생성부(550)를 포함하여 구성될 수 있다. 실시예에서 키워드 추출모듈(500)은 군집화 된 그룹 각각(H그룹 및 L 그룹)의 키워드를 유사상표 판단 로직을 통해 추출한다.Referring to Figure 2, the keyword extraction module 500 includes a filtering unit 510, a conversion unit 520, a partial match keyword extraction unit 530, a keyword extraction unit 540, and a counterfeit product suggestive keyword generation unit 550. It can be configured to include. In the embodiment, the keyword extraction module 500 extracts the keywords of each clustered group (H group and L group) through similar trademark judgment logic.
필터링부(510)는 군집화된 그룹 각각의 타이틀 중, 불용어와 명사를 제외한 단어들을 제거한다. 변환부(520)는 비교 대상 브랜드를 한글과 영문으로 변환하고, 영문은 음역화 하여 한글로 변환한다.The filtering unit 510 removes words excluding stop words and nouns from the titles of each clustered group. The conversion unit 520 converts the comparison target brand into Korean and English, transliterates the English text, and converts it into Korean.
부분일치 키워드 추출부(530)는 연속부분일치 키워드를 추출하고, 비연속 부분일치 키워드를 추출한다. 예컨대, 부분일치 키워드 추출부(530)는 브랜드명 중 일부가 비교대상 단어의 일부와 연속적으로 일치되는 단어를 추출한다. 구체적으로 부분일치 키워드 추출부(530)는, 영문/음역화 알파벳 6글자 미만, 한글 2글자 미만의 경우는 첫 음절부터 최소 50% 이상이 일련 불가분적으로 일치하는 경우, 영문/음역화 알파벳 6글자 이상, 한글 3글자 이상은 60% 이상이 일치하는 경우 등을 연속 부분일치 키워드로 추출한다. 구체적으로 부분일치 키워드 추출부(530)는 '발렌시아가'의 부분일치 키워드로 'b렌시아가' 등을 추출할 수 있다. The partial match keyword extraction unit 530 extracts continuous partial match keywords and extracts discontinuous partial match keywords. For example, the partial match keyword extraction unit 530 extracts words in which part of the brand name continuously matches part of the word to be compared. Specifically, the partial match keyword extractor 530 extracts 6 letters of the English/transliterated alphabet if at least 50% or more of them match inseparably from the first syllable in the case of less than 6 letters of the English/transliterated alphabet or 2 letters of the Korean alphabet. Cases where more than 60% of letters or more than 3 Korean characters match are extracted as consecutive partial match keywords. Specifically, the partial match keyword extractor 530 can extract 'blenciaga', etc. as a partial match keyword for 'Balenciaga'.
또한, 부분일치 키워드 추출부(530)는 비연속 부분일치 키워드 추출한다. 실시예서 비연속 부분일치 키워드는 브랜드명 중에서 일부가 비교대상 단어의 일부와 비연속적으로 일치되는 단어이다. 예컨대, 영문/음역화 알파벳 6글자 미만, 한글 2글자 미만의 경우는 첫 음절부터 최소 60% 이상의 음절이 비연속적으로 일치하는 단어, 영문/음역화 알파벳 6글자 이상, 한글 3글자 이상은 70% 이상이 음절이 비연속적으로 일치하는 단어를 추출한다. 구체적으로, 부분일치 키워드 추출부(530)는 '발렌티노'의 비연속 부분일치 키워드로 '발x티노','발렌x노' 등을 추출할 수 있다.Additionally, the partial match keyword extractor 530 extracts discontinuous partial match keywords. In the embodiment, a discontinuous partial match keyword is a word in which part of a brand name is discontinuously matched with part of a word to be compared. For example, in the case of less than 6 letters in the English/transliterated alphabet and less than 2 letters in the Korean alphabet, words in which at least 60% or more of the syllables match discontinuously from the first syllable, 70% in the case of 6 or more letters in the English/transliterated alphabet and 3 or more Korean letters. The above extracts words with discontinuously matching syllables. Specifically, the partial match keyword extraction unit 530 can extract 'Valentino', 'Valentino', etc. as non-consecutive partial match keywords of 'Valentino'.
키워드 추출부(540)는 유사 호칭 치환 로직을 기반으로 키워드를 추출하고, 브랜드명과 위조품에 특징적으로 반복되는 단어와 결합된 형태의 단어를 추출한다.The keyword extraction unit 540 extracts keywords based on similar title substitution logic and extracts words combined with brand names and words characteristically repeated in counterfeit products.
실시예에서 유사 호칭 치환 로직 기반 키워드 추출하는 것은, 브랜드명 중에서 일부의 음절이 비슷한 호칭으로 발음되는 단어를 추출하는 것이다. 키워드 추출부(540)는 기 저장된 치환 테이블을 통해 유사 호칭 치환 로직 기반 키워드를 추출할 수 있다. 예컨대, 키워드 추출부(540)는 한글 음역화 테이블 기준으로 한영 치환, 유사모음 치환, 유사자음 치환 적용하여 키워드를 추출한다. 구체적으로, '발렌시아가'의 경우 'bal렌시아가'를 유사 호칭으로 발음 키워드로 추출할 수 있고, '꼼데가르송'의 경우 '코메데가르송'을 키워드로 추출할 수 있다. In the embodiment, extracting keywords based on similar title substitution logic involves extracting words in which some syllables of a brand name are pronounced as similar titles. The keyword extraction unit 540 may extract keywords based on similar title substitution logic through a previously stored substitution table. For example, the keyword extraction unit 540 extracts keywords by applying Korean-English substitution, pseudo-vowel substitution, and pseudo-consonant substitution based on the Korean transliteration table. Specifically, in the case of 'Balenciaga', 'Balenciaga' can be extracted as a pronunciation keyword with a similar title, and in the case of 'Comme des Garçons', 'Comme des Garçons' can be extracted as a keyword.
위조품 암시 키워드 생성부(550)는 군집화된 그룹에서 추출된 키워드 중, 그룹간 중복되는 키워드를 삭제하고 남은 가품간주구간의 키워드를 위조품 암시 키워드로 생성한다. 예컨대, 위조품 암시 키워드 생성부(550)는 브랜드명과 위조품에 주로 특징적으로 반복되는 단어와 결합된 형태의 단어를 추출한다. 구체적으로, 위조품 암시 키워드 생성부(550)는 “발렌st, 샤 브로치, 샤넬.cn, 꼼데가르송. CDG”등의 단어를 추출한다. 이후, 위조품 암시 키워드 생성부(550)는 연속적 부분일치 키워드 추출과정, 비연속적 부분일치 키워드 추출과정, 유사 호칭 치환 로직 기반 키워드 추출과정 및 브랜드명과 위조품에 특징적으로 반복되는 단어와 결합된 형태의 단어 추출 과정으로 추출된 각 그룹의 키워드 중에서 중복 키워드를 삭제하고 가품간주구간에 남은 키워드를 위조품 암시 키워드로 제안할 수 있다. 예컨대, 위조품 암시 키워드 생성부(550)는 L그룹 키워드와 H그룹 키워드 중에서 서로 중복되는 키워드를 삭제하고 남은 L그룹 키워드를 위조품 암시 키워드로 제안한다. 이를 통해, 주로 비정상 유통제품에서 특징적으로 사용하는 키워드를 추출할 수 있다.The counterfeit product-suggesting keyword generation unit 550 deletes keywords that overlap between groups among the keywords extracted from the clustered groups and generates the remaining keywords in the counterfeit-deemed section as counterfeit product-suggesting keywords. For example, the counterfeit product suggestive keyword generator 550 extracts a word that is combined with a brand name and words that are characteristically repeated in counterfeit products. Specifically, the counterfeit product suggestive keyword generation unit 550 is “Valenst, Charles brooch, Chanel.cn, Comme des Garçons. Extract words such as “CDG”. Afterwards, the counterfeit product suggestive keyword generation unit 550 performs a continuous partial match keyword extraction process, a discontinuous partial match keyword extraction process, a keyword extraction process based on similar title substitution logic, and a word in the form of a combination of a brand name and a word characteristically repeated in counterfeit products. Among the keywords of each group extracted through the extraction process, duplicate keywords can be deleted and the remaining keywords in the counterfeit section can be proposed as keywords suggesting counterfeit products. For example, the counterfeit product suggestive keyword generator 550 deletes overlapping keywords among the L group keywords and H group keywords and suggests the remaining L group keywords as counterfeit product suggestive keywords. Through this, it is possible to extract keywords that are characteristically used in abnormally distributed products.
이하에서는 위조상품 식별을 위한 자연어 처리 방법에 대해서 차례로 설명한다. 실시예에 따른 위조상품 식별을 위한 자연어 처리 방법의 작용(기능)은 위조품 탐지 시스템의 기능과 본질적으로 같은 것이므로 도 1 및 도 2와 중복되는 설명은 생략하도록 한다.Below, we will sequentially explain the natural language processing method for identifying counterfeit products. Since the operation (function) of the natural language processing method for identifying counterfeit products according to the embodiment is essentially the same as the function of the counterfeit product detection system, descriptions overlapping with FIGS. 1 and 2 will be omitted.
도 3은 실시예에 따른 위조품 탐지 시스템의 자연어 처리 과정을 나타낸 도면이다. Figure 3 is a diagram showing the natural language processing process of a counterfeit product detection system according to an embodiment.
S100 단계에서는 전처리모듈(100)에서 위조품관련 웹페이지 샘플 추출을 위해 웹 크롤링(web crawling)을 수행한다. 실시예에서 S100 단계에서는 검색 조건을 순차적으로 확장시켜 반복 검색하고, 각각의 검색 결과를 웹 크롤링 할 수 있다. 예컨대, 복수개의 검색 조건 설정 후, 설정된 검색 조건을 조합하여 검색 조건을 확장하고, 확장된 검색조건에 따라 검색된 웹페이지를 크롤링한다. 구체적으로, 제1 검색 조건으로 브랜드 명을 설정하고, 제2 검색 조건으로 상품군, 제3 검색 조건으로 가격범위, 제4 검색 조건으로 상품명을 설정한다. 실시예에서는 설정된 제1검색 조건 내지 제4검색조건에서 적어도 하나를 추출하고, 추출된 검색조건을 조합하여 확장된 검색조건을 생성한다. 이후, 확장된 검색 조건 각각에 대해 검색을 수행하고 검색 결과를 크롤링 할 수 있다. 실시예에서 검색 조건은 브랜드 명과 상품군, 상품 세부정보에 따라 추가될 수 있다. In step S100, the preprocessing module 100 performs web crawling to extract samples of web pages related to counterfeit products. In an embodiment, in step S100, search conditions can be sequentially expanded to repeatedly search, and each search result can be web crawled. For example, after setting a plurality of search conditions, the search conditions are expanded by combining the set search conditions, and the searched web pages are crawled according to the expanded search conditions. Specifically, the brand name is set as the first search condition, the product group is set as the second search condition, the price range is set as the third search condition, and the product name is set as the fourth search condition. In the embodiment, at least one of the set first to fourth search conditions is extracted, and the extracted search conditions are combined to create an expanded search condition. Afterwards, you can perform a search for each of the expanded search conditions and crawl the search results. In an embodiment, search conditions may be added based on brand name, product group, and product details.
S200 단계에서는 검색어 설정모듈(200)에서 웹 크롤링 결과에 따라 주요 검색엔진에서 검색되는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정한다.In step S200, the search term setting module 200 sets an initial search term based on a search word related to the brand name searched in major search engines according to web crawling results.
S300 단계에서는 위조품판단 데이터 생성모듈(300)에서 설정된 초기 검색어로 검색된 결과값을 제목, 가격, 판매자, 설명문구, 이미지, 댓글, 카테고리, 제품구분을 포함하는 검색결과 요소 데이터로 각각 저장한다.In step S300, the result values searched with the initial search term set in the counterfeit product judgment data generation module 300 are stored as search result element data including title, price, seller, description, image, comment, category, and product classification.
S400 단계에서는 클러스터링 모듈(400)에서 수집된 데이터를 가격과 판매자In step S400, the data collected from the clustering module 400 is combined into price and seller
숫자를 포함하는 우선데이터 기준으로 군집화(Clustering)한다. 실시예에서는 군집화의 기준이 가격인 경우, 상품 판매가격의 상위구간 및 하위구간을 구분하고, 구분된 상위구간과 하위구간의 판매자 수에 따라 정품간주구간 및 가품간주구간을 설정한다. 이때, 가품간주구간은 축적된 위조품 판매자인 블랙리스트 데이터를 통해, 해당 상품군에서 판매되는 위조품 가격을 파악하고 파악된 가격에 따라 설정될 수 있다.Clustering is performed based on priority data containing numbers. In the embodiment, when the standard for clustering is price, the upper and lower sections of the product sales price are divided, and the genuine product section and counterfeit section are set according to the number of sellers in the divided upper section and lower section. At this time, the counterfeit product consideration section can be set according to the identified price by identifying the price of counterfeit products sold in the relevant product group through accumulated blacklist data of counterfeit sellers.
S500 단계에서는 키워드 추출모듈(500)에서 군집화된 그룹 각각의 키워드를 추출하고 추출된 키워드를 통해 위조품 암시 키워드를 파악한다.In step S500, keywords for each clustered group are extracted from the keyword extraction module 500, and keywords suggestive of counterfeit products are identified through the extracted keywords.
S600 단계에서는 판단 모듈(600)에서 파악된 위조품 암시 키워드를 통해 위조품을 식별한다. 또한 S600 단계에서는 위조품과 관련된 특정 이미지들을 기계학습하고, 특정 이미지들의 패턴을 파악하여 위조품의 경향성을 파악할 수 있다. 또한, S600 단계에서는 위조품 및 커스텀 제품을 암시하는 기설정된 텍스트를 기준으로 웹페이지 상품 설명 텍스트와 댓글을 분석하여 분석결과에 따라 특이상품인 위조품을 파악할 수 있다. 또한, S600 단계에서는 위조품 탐지용 크롤링(crawling)을 실행하고 실행 결과를 분석한 결과에 따라 위조품 확정 게시물을 웹 크롤링(Web crawling)으로 수집할 수 있다. In step S600, counterfeit products are identified through counterfeit product suggestive keywords identified in the judgment module 600. Additionally, in step S600, specific images related to counterfeit products are machine-learned and the patterns of specific images can be identified to determine the tendency of counterfeit products. In addition, in step S600, web page product description text and comments are analyzed based on preset text suggesting counterfeit products and custom products, and counterfeit products, which are unique products, can be identified based on the analysis results. In addition, in step S600, crawling for detecting counterfeit products is performed and posts confirming counterfeit products can be collected through web crawling according to the results of analyzing the execution results.
실시예에서는 웹에서 분석된 이미지가 위조품 판매 전용 이미지로 판단된 경우, 크롤링된 게시물을 위조품으로 확정할 수 있다. 아울러, S600 단계에서는 크롤링 실행결과가 위조품 암시 키워드를 포함하거나, 가품간주구간에 포함되거나, 블랙리스트에 포함되거나, 위조품을 암시하는 댓글 및 본문 텍스트를 포함하거나 위조품 경향성의 이미지를 포함하는 경우 중 적어도 두가지 조건을 충족하는 경우 크롤링된 게시물을 위조품으로 확정한다.In an embodiment, if the image analyzed on the web is determined to be an image exclusively for selling counterfeit products, the crawled post may be confirmed as a counterfeit product. In addition, in step S600, the crawling execution result contains at least a keyword suggesting a counterfeit product, is included in a counterfeit section, is included in a blacklist, includes comments and body text suggesting a counterfeit product, or contains an image with a tendency to counterfeit product. If two conditions are met, the crawled post is confirmed as counterfeit.
실시예에 따른 위조품 탐지를 위한 자연어 처리과정은 1차 탐지된 위조품 의심 제품을 제품정보 및 판매자정보 별로 그룹화하고, 아이템 또는 셀러별로 위조품 판매자를 확정하여 관리한다. 위조품 판매자가 확정되는 경우, 온라인 경고장을 위조품 판매자에게 발송하고, 제휴 로펌에 위조품 판매자 정보를 전달하고, 쇼핑몰 플랫폼에 위조품 판매자를 신고하고, 확정된 위조품 판매자는 블랙리스트로 설정될 수 있다. 또한, 1차 탐지된 위조품 의심 제품을 제품정보 및 판매자정보 별로 그룹화하고, 아이템 또는 셀러별로 위조품 판매자를 확정하여 관리할 수 있다.The natural language processing process for detecting counterfeit products according to the embodiment groups the initially detected suspected counterfeit products by product information and seller information, and determines and manages the counterfeit seller by item or seller. When a counterfeit seller is confirmed, an online warning letter is sent to the counterfeit seller, counterfeit seller information is delivered to an affiliated law firm, the counterfeit seller is reported to the shopping mall platform, and the confirmed counterfeit seller can be set to a blacklist. In addition, the initially detected suspected counterfeit products can be grouped by product information and seller information, and the counterfeit seller can be confirmed and managed by item or seller.
도 4는 실시예에 따른 위조품 식별을 위한 키워드 추출과정을 나타낸 도면이다. Figure 4 is a diagram showing a keyword extraction process for identifying counterfeit products according to an embodiment.
S510 단계에서는 필터링부에서 군집화된 그룹 각각의 타이틀 중, 불용어와 명사를 제외한 단어들을 제거한다. S520 단계에서는 변환부에서 비교 대상 브랜드를 한글과 영문으로 변환하고, 영문은 음역화 하여 한글로 변환한다.In step S510, words excluding stop words and nouns are removed from the titles of each clustered group in the filtering unit. In step S520, the comparison unit converts the brand to be compared into Korean and English, and English is transliterated and converted into Korean.
S530 단계에서는 부분일치 키워드 추출부에서 연속부분일치 키워드를 추출하고, 비연속 부분일치 키워드를 추출한다. S540 단계에서는 키워드 추출부에서 유사 호칭 치환 로직을 기반으로 키워드를 추출하고, 브랜드명과 위조품에 특징적으로 반복되는 단어와 결합된 형태의 단어를 키워드로 추출한다.In step S530, continuous partial match keywords are extracted from the partial match keyword extraction unit, and non-contiguous partial match keywords are extracted. In step S540, keywords are extracted based on similar title substitution logic in the keyword extraction unit, and words combined with brand names and words characteristically repeated in counterfeit products are extracted as keywords.
S550 단계에서는 위조품 암시 키워드 생성부에서 군집화된 각각의 그룹에서 추출된 키워드 중, 그룹간 중복되는 키워드를 삭제하고 남은 가품간주구간의 키워드를 위조품 암시 키워드로 제안한다. In step S550, among the keywords extracted from each clustered group in the counterfeit product suggestive keyword generation unit, overlapping keywords between groups are deleted and the remaining keywords in the counterfeit deemed section are proposed as counterfeit product suggestive keywords.
이상에서와 같은 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템은, 위조품을 표현하는 단어 자체를 검색 키워드로 활용하는 경우 위조품 탐지의 효율성을 극대화한다. 예컨대, 네이버 쇼핑에 “에르메s”“루이비x”“샤넬.cn”“렌시아가” 등을 검색하면 위조품을 쉽게 검색할 수 있다. 위조품 암시 키워드는 일반적으로 검색되는 원조 브랜드와의 호칭상의 유사성을 유지하면서 위조품을 사고자 하는 고객들에게 쉽게 검색 가능하도록 노출을 의도된 단어이다. 위조품 암시 키워드들은 위조품 판매자의 의도에 의해서 만들어 진 것이기도 하고 자연스럽게 시장의 수요자들에 의해서 만들어진 단어이다. 실시예에서는 이러한 위조품 암시 키워드의 패턴을 파악하고, 위조품 암시 키워드를 추출하여 온라인상 위조품 및 위조품 판매 웹을 손쉽게 검출할 수 있도록 한다. The natural language processing method and counterfeit detection system for identifying counterfeit products as described above maximizes the efficiency of detecting counterfeit products when the word itself representing the counterfeit product is used as a search keyword. For example, you can easily search for counterfeit products by searching “Hermes,” “Louis x,” “Chanel.cn,” “Lenciaga,” etc. on Naver Shopping. Counterfeit product suggestive keywords are words intended to be easily searchable by customers who want to buy counterfeit products while maintaining the similarity in name with the original brand that is generally searched for. Keywords alluding to counterfeit products are words created by the intention of counterfeit product sellers and naturally by consumers in the market. In the embodiment, patterns of counterfeit product-suggestive keywords are identified, counterfeit product-suggestive keywords are extracted, and counterfeit products and counterfeit product sales webs can be easily detected online.
또한, 실시예를 통해 명품 제품군을 포함, 정품과 위조품의 가격차가 큰 일련의 제품군들 중 위조품이 활발하게 거래되는 대부분의 브랜드에서 위조품을 특징할 수 있는 키워드를 추출할 수 있고, 추출된 키워드를 통해 온라인 위조품을 효율적으로 탐지 가능하다. 아울러, 정품과 위조품의 가격차가 크지 않은 경우는 검색 키워드 외 위조품을 특정하는 정보의 조합으로도 위조품 검출을 가능하게 한다. 또한, 실시예를 통해 몇천 건의 위조품도 위조품 판매 셀러로 그룹화 하여 수십건의 위조품 판매자로 정리하여 위조품 데이터 처리 효율을 향상시키고, 위조품 셀러 별 대응을 가능하게 한다. 또한 실시예에서는 사업자번호, 사업자 명칭, 전화번호 등을 이용하여 위조품 판매자를 그룹화 하고 그룹에 포함된 위조품 셀러들을 효율적으로 대응할 수 있도록 한다. 아울러, 위조품 탐지 시스템은 불법 판매자에게 자동 경고장 전송 등의 관리 기능을 제공하여 일련의 위조품 판매 행위를 쉽게 제거할 수 있다. 또한, 실시예를 통해 브랜드명칭을 온라인 검색 키워드로 사용하면서 타사의 제품을 거래하는 온라인 상표권 도용행위의 탐지도 가능하다.In addition, through an embodiment, keywords that can characterize counterfeit products can be extracted from most brands in which counterfeit products are actively traded among a series of product groups with a large price difference between genuine and counterfeit products, including luxury product product lines, and the extracted keywords Through this, online counterfeit products can be efficiently detected. In addition, in cases where the price difference between genuine and counterfeit products is not large, counterfeit product detection is possible using a combination of information that specifies the counterfeit product in addition to search keywords. In addition, through an embodiment, thousands of counterfeit products are grouped into counterfeit product sellers and organized into dozens of counterfeit product sellers, thereby improving counterfeit product data processing efficiency and enabling response to each counterfeit product seller. Additionally, in the embodiment, counterfeit product sellers are grouped using business registration numbers, business names, phone numbers, etc., and counterfeit product sellers included in the group can be efficiently responded to. In addition, the counterfeit detection system provides management functions such as sending automatic warning letters to illegal sellers, making it easy to eliminate a series of counterfeit sales activities. In addition, through the embodiment, it is possible to detect online trademark theft by trading other companies' products while using the brand name as an online search keyword.
개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.The disclosed content is merely an example, and various modifications and implementations may be made by those skilled in the art without departing from the gist of the claims, so the scope of protection of the disclosed content is limited to the above-mentioned specific scope. It is not limited to the examples.
Claims (8)
(A)전처리모듈에서 위조품관련 웹페이지 샘플 추출을 위해 브랜드명과 제품군을 검색 조건으로 설정하여 웹 크롤링(web crawling)을 수행하는 단계;
(B)검색어 설정모듈에서 검색엔진에서 검색되는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정하는 단계;
(C)위조품판단 데이터 생성모듈에서 설정된 초기 검색어로 검색된 결과값을 제목, 가격, 판매자, 설명문구, 이미지, 댓글, 카테고리, 제품구분을 포함하는 검색결과 요소데이터로 각각 저장하는 단계;
(D)클러스터링 모듈에서 수집된 데이터를 가격, 판매자, 숫자를 포함하는 우선데이터 기준으로 군집화(Clustering)하는 단계;
(E)키워드 추출모듈에서 군집화된 그룹 각각의 키워드를 추출하고 추출된 키워드를 통해 위조품 암시 키워드를 파악하는 단계;
(F)판단모듈에서 상기 파악된 위조품 암시 키워드를 통해 웹페이지의 위조품을 식별하고 웹페이지의 상품 설명 문구와 댓글분석 결과에 따라 특이 상품을 구분하는 단계; 및
(G) 위조품 판매웹 관리모듈에서 탐지된 위조품의심 제품을 제품군 및 판매자군 별로 그룹화하여 관리하고, 위조품 판매자가 확정되는 경우 온라인 경고장을 위조품 판매자에게 발송하고, 플랫폼 경고 조치 후에도 제거되지 않는 위조품만을 별도로 리포팅 하는 단계; 를 포함하고,
상기 (D)의 단계; 는
클러스터링 모듈에서 그룹 생성시 군집화의 기준이 가격인 경우, 상품 판매가격의 상위구간 및 하위구간을 구분하는 단계; 및
구분된 상위구간과 하위구간의 판매자 수에 따라 정품간주구간 및 가품간주구간을 설정하는 단계; 를 포함하고,
상기 (F) 단계; 는
위조품이 포함된 이미지, 모자이크 처리가 된 이미지를 포함하는 특정 이미지들의 패턴을 파악하여 위조품의 경향성을 판단하는 단계;
위조품과 연관된 이미지 및 이미지 패턴 데이터를 위조품 의심 조건으로 설정하는 단계; 및
동종 영역에서 영역별 경향성을 가진 이미지셋(image set)을 학습하는 단계; 를 포함하는 것을 특징으로 하는 자연어 처리 방법.
In a natural language processing method for identifying counterfeit products on a web,
(A) performing web crawling by setting the brand name and product line as search conditions to extract samples of web pages related to counterfeit products in the preprocessing module;
(B) setting an initial search term in the search term setting module based on the search term related to the brand name searched in the search engine;
(C) Saving the search results with the initial search term set in the counterfeit product judgment data generation module as search result element data including title, price, seller, description, image, comment, category, and product classification;
(D) Clustering the data collected in the clustering module based on priority data including price, seller, and number;
(E) Extracting keywords from each clustered group in the keyword extraction module and identifying keywords suggestive of counterfeit products through the extracted keywords;
(F) identifying counterfeit products on a web page through the identified counterfeit product suggestive keywords in the judgment module and classifying unique products according to product description text on the web page and comment analysis results; and
(G) Suspicious counterfeit products detected in the counterfeit sales web management module are grouped and managed by product group and seller group, and if the counterfeit seller is confirmed, an online warning letter is sent to the counterfeit seller, and only counterfeit products that are not removed even after platform warning measures are separately managed. Reporting step; Including,
Step (D) above; Is
When the clustering standard is price when creating a group in the clustering module, dividing the upper and lower sections of the product sales price; and
Setting a genuine product section and a counterfeit section according to the number of sellers in the upper section and lower section; Including,
Step (F) above; Is
Determining the tendency of counterfeit products by identifying patterns of specific images, including images containing counterfeit products and mosaic-processed images;
Setting image and image pattern data associated with a counterfeit product as a condition for suspecting a counterfeit product; and
Learning an image set with region-specific tendencies in a homogeneous region; A natural language processing method comprising:
위조품 및 커스텀 제품을 암시하는 기설정된 텍스트를 기준으로 웹페이지에 등록된 상품 설명 텍스트와 댓글을 분석하는 단계;
상기 분석결과에 따라 위조품을 파악하는 단계; 를 포함하는 것을 특징으로 하는 자연어 처리 방법.
The method of claim 1, wherein step (F); Is
Analyzing product description text and comments registered on a web page based on preset text suggesting counterfeit and custom products;
Identifying counterfeit products according to the analysis results; A natural language processing method comprising:
(E-1) 군집화된 그룹 각각의 타이틀 중, 불용어와 명사를 제외한 단어들을 제거하는 단계;
(E-2) 비교 대상 브랜드를 한글과 영문으로 변환하고, 상기 영문은 한글 음역화 테이블 기준으로 한영 치환, 유사모음 치환, 유사자음 치환 적용 후 음역화 하여 한글로 변환하는 단계;
(E-3) 연속부분일치 키워드를 추출하는 단계;
(E-4) 비연속 부분일치 키워드를 추출하는 단계;
(E-5) 유사 호칭 치환 로직을 기반으로 키워드를 추출하는 단계;
(E-6) 브랜드명과 위조품에 특징적으로 반복되는 단어와 결합된 형태의 단어를 추출하는 단계;
(E-7) 군집화된 그룹에서 추출된 키워드 중, 그룹간 중복되는 키워드를 삭제하고 남은 가품간주구간의 키워드를 위조품 암시 키워드로 제안하는 단계; 를 포함하는 것을 특징으로 하는 자연어 처리 방법.
The method of claim 1, wherein step (E); Is
(E-1) removing words excluding stop words and nouns from the titles of each clustered group;
(E-2) Converting the comparison target brand into Korean and English, and transliterating the English text into Korean after applying Korean-English substitution, pseudo-vowel substitution, and pseudo-consonant substitution based on the Korean transliteration table;
(E-3) extracting consecutive partial matching keywords;
(E-4) extracting non-contiguous partial matching keywords;
(E-5) extracting keywords based on similar name substitution logic;
(E-6) extracting words combined with brand names and words characteristically repeated in counterfeit products;
(E-7) Among the keywords extracted from the clustered groups, deleting overlapping keywords between groups and proposing the remaining keywords in the section considered counterfeit as keywords suggesting counterfeit products; A natural language processing method comprising:
크롤링 실행결과가 위조품 암시 키워드를 포함하거나, 가품간주구간에 포함되거나, 블랙리스트에 포함되거나, 위조품을 암시하는 댓글 및 본문 텍스트를 포함하거나 위조품 경향성의 이미지를 포함하는 경우 중 적어도 하나를 충족하는 경우 크롤링된 게시물을 위조품으로 확정하는 것을 특징으로 하는 자연어 처리 방법.
The method of claim 1, wherein step (F); Is
If the crawling execution result satisfies at least one of the following cases: includes keywords suggestive of counterfeit products, is included in the counterfeit section, is included in the blacklist, contains comments and body text suggestive of counterfeit products, or contains images with a tendency to counterfeit products. A natural language processing method characterized by determining crawled posts as counterfeit.
위조품 관련 웹페이지 샘플 추출을 위해 브랜드명과 제품군을 검색 조건으로 설정하여 웹 크롤링(web crawling)을 수행하는 전처리모듈;
상기 웹 크롤링 결과에 따라 주요 검색엔진에서 검색되는 브랜드명의 연관 검색어를 기준으로 초기 검색어를 설정하는 검색어 설정모듈;
상기 설정된 초기 검색어로 검색된 결과값을 제목, 가격, 판매자, 설명문구, 이미지, 댓글, 카테고리, 제품구분을 포함하는 검색결과 요소 데이터로 각각 저장하는 위조품 판단 데이터 생성모듈;
수집된 데이터를 가격과 판매자 숫자를 포함하는 우선데이터 기준으로 군집화(Clustering)하는 클러스터링모듈;
군집화된 그룹 각각의 키워드를 추출하고 추출된 키워드를 통해 위조품 암시 키워드를 파악하는 키워드 추출모듈;
상기 파악된 위조품 암시 키워드를 통해 위조품을 식별하고 웹페이지의 상품 설명 문구와 댓글분석 결과에 따라 특이 상품을 구분하는 판단모듈; 및
1차 탐지된 위조품 의심 제품을 제품정보 및 판매자정보 별로 그룹화하고, 아이템 또는 셀러별로 위조품 판매자를 확정하여 관리하고 위조품 판매자가 확정되는 경우 온라인 경고장을 위조품 판매자에게 발송하고, 플랫폼 경고 조치 후에도 제거되지 않는 위조품만을 별도로 리포팅 하는 위조품판매웹 관리모듈; 을 포함하고,
상기 클러스터링 모듈; 은
클러스터링 모듈에서 그룹 생성시 군집화의 기준이 가격인 경우, 상품 판매가격의 상위구간 및 하위구간을 구분하고, 구분된 상위구간과 하위구간의 판매자 수에 따라 정품간주구간 및 가품간주구간을 설정하고,
상기 판단모듈; 은
위조품이 포함된 이미지, 모자이크 처리가 된 이미지를 포함하는 특정 이미지들의 패턴을 파악하여 위조품의 경향성을 판단하고, 위조품과 연관된 이미지 및 이미지 패턴 데이터를 위조품 의심 조건으로 설정하여 동종 영역에서 영역별 경향성을 가진 이미지셋(image set)을 학습하는 것을 특징으로 하는 위조품 탐지 시스템.
In the counterfeit detection system,
A preprocessing module that performs web crawling by setting brand names and product groups as search conditions to extract samples of web pages related to counterfeit products;
a search word setting module that sets an initial search word based on search terms related to the brand name searched in major search engines according to the web crawling results;
a counterfeit product judgment data generation module that stores the result values searched with the initial search term set as search result element data including title, price, seller, description, image, comment, category, and product classification;
Clustering module that clusters the collected data based on priority data including price and number of sellers;
A keyword extraction module that extracts keywords from each clustered group and identifies keywords suggestive of counterfeit products through the extracted keywords;
a judgment module that identifies counterfeit products through the identified counterfeit product suggestive keywords and classifies unique products according to the product description text and comment analysis results on the web page; and
Suspicious counterfeit products detected initially are grouped by product information and seller information, and counterfeit sellers are identified and managed by item or seller. If a counterfeit seller is confirmed, an online warning letter is sent to the counterfeit seller, and if the counterfeit product is not removed even after platform warning measures, Counterfeit product sales web management module that reports only counterfeit products separately; Including,
the clustering module; silver
When creating a group in the clustering module, if the basis for clustering is price, the upper and lower sections of the product sales price are distinguished, and the genuine and counterfeit sections are set according to the number of sellers in the upper and lower sections.
The judgment module; silver
Determine the tendency of counterfeit products by identifying patterns in specific images, including images containing counterfeit products and mosaic-processed images, and set image and image pattern data related to counterfeit products as conditions for suspecting counterfeit products to identify trends by region in the same area. A counterfeit detection system characterized by learning an image set.
위조품 및 커스텀 제품을 암시하는 기설정된 텍스트를 기준으로 웹페이지 상품 설명 텍스트와 댓글을 분석하고, 상기 분석결과에 따라 위조품을 파악하는 것을 특징으로 하는 위조품 탐지 시스템.
According to claim 5, wherein the decision module; silver
A counterfeit product detection system that analyzes web page product description text and comments based on preset text suggesting counterfeit products and custom products, and identifies counterfeit products based on the analysis results.
군집화된 그룹 각각의 타이틀 중, 불용어와 명사를 제외한 단어들을 제거하는 필터링부;
비교 대상 브랜드를 한글과 영문으로 변환하고, 상기 영문은 한글 음역화 테이블 기준으로 한영 치환, 유사모음 치환, 유사자음 치환 적용 후 음역화 하여 한글로 변환하는 변환부;
연속부분일치 키워드를 추출하고, 비연속 부분일치 키워드를 추출하는 부분일치 키워드 추출부;
유사 호칭 치환 로직을 기반으로 키워드를 추출하고, 브랜드명과 위조품에 특징적으로 반복되는 단어와 결합된 형태의 단어를 추출하는 키워드 추출부;
군집화된 그룹에서 추출된 키워드 중, 그룹간 중복되는 키워드를 삭제하고 남은 가품간주구간의 키워드를 위조품 암시 키워드로 생성하는 위조품 암시 키워드 생성부; 를 포함하는 것을 특징으로 하는 위조품 탐지 시스템.
The method of claim 5, further comprising: the keyword extraction module; silver
A filtering unit that removes words excluding stop words and nouns from the titles of each clustered group;
A conversion unit that converts the comparison target brand into Korean and English, and converts the English text into Korean by transliterating it after applying Korean-English substitution, similar vowel substitution, and similar consonant substitution based on the Korean transliteration table;
A partial match keyword extraction unit that extracts continuous partial match keywords and extracts non-contiguous partial match keywords;
A keyword extraction unit that extracts keywords based on similar title substitution logic and extracts words combined with brand names and words characteristically repeated in counterfeit products;
Among the keywords extracted from the clustered groups, a counterfeit product suggestive keyword generator that deletes overlapping keywords between groups and generates the remaining keywords in the counterfeit product deemed section as counterfeit product suggestive keywords; A counterfeit detection system comprising:
크롤링 실행결과가 위조품 암시 키워드를 포함하거나, 가품간주구간에 포함되거나, 블랙리스트에 포함되거나, 위조품을 암시하는 댓글 및 본문 텍스트를 포함하거나 위조품 경향성의 이미지를 포함하는 경우 중 적어도 하나를 충족하는 경우 크롤링된 게시물을 위조품으로 확정하는 것을 특징으로 하는 위조품 탐지 시스템. According to claim 5, wherein the decision module; silver
If the crawling execution result satisfies at least one of the following cases: includes keywords suggestive of counterfeit products, is included in the counterfeit section, is included in the blacklist, contains comments and body text suggestive of counterfeit products, or contains images with a tendency to counterfeit products. A counterfeit detection system characterized by determining crawled posts as counterfeit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220155528A KR102576231B1 (en) | 2021-02-08 | 2022-11-18 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210017411A KR102470248B1 (en) | 2021-02-08 | 2021-02-08 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
KR1020220155528A KR102576231B1 (en) | 2021-02-08 | 2022-11-18 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210017411A Division KR102470248B1 (en) | 2021-02-08 | 2021-02-08 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220159335A KR20220159335A (en) | 2022-12-02 |
KR102576231B1 true KR102576231B1 (en) | 2023-09-11 |
Family
ID=83111047
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210017411A KR102470248B1 (en) | 2021-02-08 | 2021-02-08 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
KR1020220155528A KR102576231B1 (en) | 2021-02-08 | 2022-11-18 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210017411A KR102470248B1 (en) | 2021-02-08 | 2021-02-08 | Natural language processing method for identification of counterfeit products and counterfeit product detection system |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR102470248B1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101487297B1 (en) * | 2014-06-10 | 2015-01-29 | 김수현 | Web page contents confirmation system and method using categoryclassification |
KR102134792B1 (en) * | 2019-12-11 | 2020-07-16 | 주식회사 코인베스트 | Method for providing used goods trade service using fraud detection and appraisal based on blockchain with safe transaction |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150091185A (en) | 2011-12-28 | 2015-08-07 | 인텔 코포레이션 | Real-time natural language processing of datastreams |
KR101612291B1 (en) | 2014-10-30 | 2016-04-26 | 한국과학기술정보연구원 | Method and apparatus for analyzing industrial structure using natural language processing |
KR102358607B1 (en) * | 2019-03-26 | 2022-02-07 | 주식회사 캐시고 | Artificial intelligence appraisal system, artificial intelligence appraisal method and storage medium |
-
2021
- 2021-02-08 KR KR1020210017411A patent/KR102470248B1/en active IP Right Grant
-
2022
- 2022-11-18 KR KR1020220155528A patent/KR102576231B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101487297B1 (en) * | 2014-06-10 | 2015-01-29 | 김수현 | Web page contents confirmation system and method using categoryclassification |
KR102134792B1 (en) * | 2019-12-11 | 2020-07-16 | 주식회사 코인베스트 | Method for providing used goods trade service using fraud detection and appraisal based on blockchain with safe transaction |
Non-Patent Citations (1)
Title |
---|
다크웹 스캐닝 기술 기반의 정보 수집 분석 시스템 개발 최종보고서, 정보통신 방송 연구개발 사업 제3차 연도 최종 보고서 (2019.02.14.) 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20220114195A (en) | 2022-08-17 |
KR102470248B1 (en) | 2022-11-25 |
KR20220159335A (en) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barbado et al. | A framework for fake review detection in online consumer electronics retailers | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
KR102190897B1 (en) | Method and Apparatus for analyzing fashion trend based on big data | |
KR100815530B1 (en) | Method and system for filtering obscene contents | |
CN102663025B (en) | Illegal online commodity detection method | |
JP5292454B2 (en) | Advertisement medium determining apparatus and advertisement medium determining method | |
CN112035742A (en) | User portrait generation method, device, equipment and storage medium | |
US11042594B2 (en) | Artificial intelligence for product data extraction | |
WO2018068603A1 (en) | Big data technique-based supply chain management decision support system | |
CN105069654A (en) | User identification based website real-time/non-real-time marketing investment method and system | |
CN110298245B (en) | Interest collection method, interest collection device, computer equipment and storage medium | |
KR102650139B1 (en) | Artificial intelligence-based system and method for online counterfeit product crackdown | |
CN114915468B (en) | Intelligent analysis and detection method for network crime based on knowledge graph | |
CN114692593B (en) | Network information safety monitoring and early warning method | |
CN112464666A (en) | Unknown network threat automatic discovery method based on dark network data | |
CN113420018A (en) | User behavior data analysis method, device, equipment and storage medium | |
CN107220239A (en) | A kind of feature extracting method effectively commented in ecommerce based on big data processing | |
CN118193806A (en) | Target retrieval method, target retrieval device, electronic equipment and storage medium | |
CN113592512A (en) | Online commodity identity uniqueness identification and confirmation system | |
KR102576231B1 (en) | Natural language processing method for identification of counterfeit products and counterfeit product detection system | |
KR101498944B1 (en) | Method and apparatus for deciding product seller related document | |
WO2023045535A1 (en) | Method and apparatus for identifying picture | |
KR20210041733A (en) | Method, apparatus and computer program for fashion item recommendation | |
Gallo et al. | Content extraction from marketing flyers | |
CN115470322A (en) | Keyword generation system and method based on artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |