KR20230004333A - 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20230004333A
KR20230004333A KR1020220080077A KR20220080077A KR20230004333A KR 20230004333 A KR20230004333 A KR 20230004333A KR 1020220080077 A KR1020220080077 A KR 1020220080077A KR 20220080077 A KR20220080077 A KR 20220080077A KR 20230004333 A KR20230004333 A KR 20230004333A
Authority
KR
South Korea
Prior art keywords
data
sentence
type
current
current sentence
Prior art date
Application number
KR1020220080077A
Other languages
English (en)
Inventor
친 마오
페이 쩌우
위에 짱
옌 리여우
하이차오 덩
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20230004333A publication Critical patent/KR20230004333A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체를 제공하되, 인터넷 기술분야에 관한 것이고, 특히 인터넷 빅 데이터 처리 기술에 관한 것이다. 구체적인 방법은, 마이닝할 현재 문장을 획득하는 단계; 기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 단계; 상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 단계; 및 상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 단계를 포함한다.

Description

데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체{DATA MINING METHOD, DATA MINING APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명은 인터넷 기술분야에 관한 것으로, 특히 인터넷 빅 데이터 처리 기술중의 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
현재 많은 기업이 생성한 인터넷 데이터를 분석하고 필요한 데이터를 마이닝하며 마이닝된 데이터에 기반하여 추가 처리를 수행해야 한다. 예를 들어, 기업이 인터넷 데이터에 대한 여론 분석을 수행하도록 돕기 위해 여론 분석 시스템이 출현하였는데, 여론 분석 시스템은 주로 여론의 실시간 모니터링 및 돌발 여론에 대한 적시 경고에 사용된다.
이로부터 알 수 있는 바, 방대한 인터넷 데이터에서 어떻게 필요한 데이터를 효과적으로 마이닝하는가는 네트워크 데이터 처리에서 중요한 단계 중 하나이다. 구체적으로, 여론 분석의 경우, 방대한 인터넷 데이터에서 여론 데이터를 어떻게 효과적으로 마이닝하는가는 여론 분석의 가장 중요한 단계 중 하나이다.
본 발명은 필요한 데이터를 효과적으로 마이닝할 수 있는 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체를 제공한다.
본 발명의 일 측면에 따르면, 마이닝할 현재 문장을 획득하는 단계; 기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 단계; 상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 단계; 및 상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 단계를 포함하는 데이터 마이닝 방법을 제공한다.
본 발명의 다른 측면에 따르면, 데이터 마이닝을 수행할 인터넷 데이터 중의 현재 문장을 획득하는 현재 문장 획득 모듈; 기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 정보 값 획득 모듈; 상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 데이터 타입 인식 모듈; 및 상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 데이터 타입 결정 모듈을 포함하는 데이터 마이닝 장치를 제공한다.
본 발명의 또 다른 측면에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하고; 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 상기 어느 하나에 따른 방법을 수행할 수 있도록 하는, 전자 기기를 제공한다.
본 발명의 또 다른 측면에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하되, 상기 컴퓨터 명령은 상기 컴퓨터가 상기 어느 하나에 따른 방법을 수행하도록 한다.
본 발명의 또 다른 측면에 따르면, 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하되, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상기 어느 하나에 따른 방법을 구현한다.
이 부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 나타내기 위한 것이 아니고, 본 발명의 범위를 제한하기 위한 것이 아니다. 본 발명의 다른 특징은 아래 명세서를 통해 용이하게 이해될 것이다.
이상과 같은 본 발명에 따르면, 필요한 데이터를 효과적으로 마이닝할 수 있는 효과를 기대할 수 있다.
도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명을 한정하지 않는다.
도 1은 본 발명에 의한 데이터 마이닝 방법의 제1 실시예의 흐름 모식도이다.
도 2는 본 발명에 의한 데이터 마이닝 방법의 제2 실시예의 흐름 모식도이다.
도 3은 본 발명에 의한 데이터 마이닝 방법이 여론 시스템에 적용되는 여론 데이터 분류 모식도이다.
도 4a는 본 발명에 의한 데이터 마이닝 방법의 제3 실시예의 흐름 모식도이다.
도 4b는 본 발명에 의한 데이터 마이닝 방법이 여론 시스템에 적용되는 여론 분석의 전체 과정 모식도이다.
도 5는 본 발명에 의한 데이터 마이닝 장치의 제1 실시예의 구조 모식도이다.
도 6은 본 발명에 의한 데이터 마이닝 장치의 제2 실시예의 구조 모식도이다.
도 7은 본 발명에 의한 데이터 마이닝 장치의 제3 실시예의 구조 모식도이다.
도 8은 본 발명의 실시예에 따른 데이터 마이닝 방법을 구현하기 위한 전자 기기의 블록도이다.
아래, 본 발명의 예시적 실시예에 대한 이해를 돕기 위해 본 발명의 실시예의 다양한 세부 사항을 포함하는 도면을 참조하여 본 발명의 예시적 실시예를 설명하되, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자는 본 발명의 범위 및 사상을 벗어나지 않고 여기서 설명된 실시예에 대해 다양한 변경 및 수정을 진행할 수 있다. 마찬가지로, 명확함 및 간결함을 위해, 아래의 설명에서 공지된 기능 및 구조에 대한 설명은 생략한다.
본 발명은 필요한 데이터를 효과적으로 마이닝할 수 있는 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체를 제공하되, 아래에서 분석하여 상세하게 설명한다.
도 1을 참조하면, 도 1은 본 발명에 의한 데이터 마이닝 방법의 제1 실시예의 흐름 모식도이고, 도 1에 도시된 바와 같이, 상기 방법은 하기와 같은 단계를 포함한다.
단계 S110에서, 마이닝할 현재 문장을 획득한다.
단계 S120에서, 기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득한다.
단계 S130에서, 상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는다.
단계 S140에서, 상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정한다.
상기 실시예로부터 알 수 있는 바, 본 발명에 의해 제공된 데이터 마이닝 방법은, 기설정된 다수의 데이터 인식 전략에 기반하여 웹 페이지 데이터에 대해 데이터 분류 마이닝을 수행하여 상이한 타입의 데이터를 효과적으로 마이닝할 수 있다. 현재 흔히 사용되는 웹 페이지 데이터에 대한 수동 데이터 마이닝과 비교할 때 더 효율적이고 정확하다.
본 발명은 마이닝할 데이터를 각각 데이터 저품질, 내용 저품질 및 감정 분석 부정확인 3가지 주요 타입으로 나눌 수 있다.
본 발명에 의해 제공된 데이터 마이닝 방법은 여론 시스템에 적용될 수 있다. 여론 데이터의 분류 마이닝을 구현하기 위해, 여론 시스템의 여론 데이터를 데이터 저품질, 내용 저품질 및 감정 분석 부정확인 3가지 주요 타입으로 나눌 수 있다.
이로써, 여론 데이터를 마이닝할 경우, 이 3가지 타입에 대해 마이닝할 수 있으므로, 이 3가지 주요 타입의 여론 데이터에 대한 후속 직접 마이닝 및 분류 처리를 위해 편리한 조건을 제공한다.
문장은 여론 시스템의 가장 기본적인 요소이고, 데이터 저품질은 문장 자체의 품질 상황을 평가한다. 문장 자체 데이터 품질이 지나치게 낮으면 사용자에게 큰 영향을 미치므로, 후속 처리에서 직접 필터링하도록 데이터 저품질의 문장을 마이닝해야 한다.
내용 저품질의 문장인 경우, 문장을 이해하여 문장이 광고, 음란물 및 도박 등에 속하는지 여부를 결정한다. 이러한 내용 저품질의 문장은 부정적인 영향을 미치므로, 후속 연구 개발자가 내용 필터링 알고리즘을 개선하도록 내용 저품질의 문장을 마이닝해야 한다.
문장의 감정 분류는 여론 분석의 특징적인 기능으로서 감정 분석에 대한 정확성이 특히 중요하므로, 후속 연구 개발자가 감정 극성 분석 알고리즘을 개선하도록 감정 분석 부정확한 문장을 마이닝해야 한다.
도 2를 참조하면, 도 2는 본 발명에 의한 데이터 마이닝 방법의 제2 실시예의 흐름 모식도이고, 도 2에 도시된 바와 같이, 이 흐름은 도 1에 기초하여 단계 S120 및 단계 S130을 세분화한다.
구체적으로, 단계 S120은 하기와 같은 단계를 포함할 수 있다.
단계 S121에서, 데이터 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 문장 제목, 문장 요약 및 문장 내용을 획득한다.
본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 데이터 저품질 타입의 여론 데이터에 대해, 본 발명이 사용할 수 있는 여론 데이터 인식 전략은 주로 규칙 매칭이다. 본 실시예에서, 문장 제목, 문장 요약 및 문장 내용에 대한 속성 매칭 규칙을 정의하였다. 따라서, 본 단계에서는 현재 문장에서 문장 제목, 문장 요약 및 문장 내용을 획득할 수 있다.
본 실시예에서, 데이터 저품질 여론 데이터에 사용한 인식 전략은 주로 규칙 매칭이다. 이러한 규칙 매칭의 인식 전략은 한편으로 개입하기 더 쉽운데, badcase를 평가하는 범위를 확장하려면 직접 규칙을 추가할 수 있고; 다른 한편으로 해석성이 더 강한데, badcase를 발견하면 어떠한 규칙이 매칭되었는지 직접 찾을 수 있으며; 마지막으로, 다양한 분야에서 이전할 수 있으므로, 인건비를 많이 절약할 수 있는데, 예를 들어, 여론 시스템에서 추천 시스템으로, 또는 정부 사무 여론에서 기업 여론으로 이전하는 등이다.
단계 S122에서, 내용 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 키워드를 추출한다.
본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 내용 저품질 타입의 여론 데이터에 대해, 본 발명이 사용할 수 있는 여론 데이터 인식 전략은 주로 키워드 매칭이다. 따라서, 본 단계에서는 현재 문장에서 키워드를 추출할 수 있다.
단계 S123에서, 감정 분석 부정확 타입의 데이터 인식 전략에 기반하여 현재 문장에서 발표된 감정 극성 라벨을 획득한다.
본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 감정 분석 부정확 여론 데이터에 대해, 본 발명이 사용할 수 있는 여론 데이터 인식 전략은 주로 상이한 감성 극성 분석 알고리즘을 통해 발표된 감정 극성 라벨의 정확 여부를 검증하는 것이다. 따라서, 본 단계에서는 현재 문장에서 발표된 감정 극성 라벨을 획득할 수 있다.
구체적으로, 단계 S130은 하기와 같은 단계를 포함할 수 있다.
단계 S131에서, 데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는다.
본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 본 단계는, 상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 데이터 저품질 타입의 데이터 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 여론 데이터인 것으로 결정하는 단계일 수 있다.
문장 제목, 문장 요약, 문장 내용인 3개의 속성에 대해, 본 발명은 길이가 너무 긴지 여부/너무 짧은지 여부, 비어 있는지 여부, 깨짐 여부 등 규칙을 정의할 수 있다. 대응되게, 본 단계는 구체적으로, 상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 문자 길이 규칙 또는 깨짐 규칙 및 문장 제목과 문장 요약의 매칭 여부의 규칙 중 하나 이상의 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 여론 데이터인 것으로 결정하는 단계일 수 있다.
이로써, 본 실시예는 데이터 저품질의 여론 데이터를 마이닝하는 과정에서 상이한 규칙에 기반하여 이러한 여론 데이터를 제목이 너무 짧거나 너무 김, 요약이 너무 짧거나 너무 김, 제목이 비어 있음, 요약이 비어 있음 또는 내용이 중복됨 등 하위 타입으로 더 분류할 수 있다.
또한, 본 발명에서 제목과 요약의 매칭 여부의 규칙을 정의할 수 있다. 이 규칙은, 현재 문장이 문장 제목과 문장 요약의 문자 비매칭, 및 문장 제목과 문장 요약의 시맨틱 비매칭 중 적어도 하나에 부합되면, 상기 현재 문장이 데이터 저품질 타입의 여론 데이터인 것으로 결정하는 것을 포함한다. 이로써, 본 단계는 또한 제목과 요약의 매칭 여부를 판단하여 현재 문장이 데이터 저품질 타입의 여론 데이터인지 여부를 결정할 수 있다. 이로부터 알 수 있는 바, 본 실시예에서 또한 제목과 요약의 매칭 여부를 통해 데이터 저품질의 여론 데이터를 인식할 수 있다.
구체적으로, 본 단계에서 제목과 요약의 매칭 여부를 계산하기 위해 다양한 계산 지표를 사용한다. 첫 번째는 먼저 제목과 요약의 글자를 각각 자르고, 제목 글자 집합과 요약 글자 집합의 중첩 비율을 계산하는 문자 매칭도이고; 두 번째는 먼저 중국어 NLP 사전 트레이닝 모델(ERNIE 모델)에서 제목과 요약의 벡터를 얻고, 제목 벡터와 요약 벡터의 코사인(cos) 거리를 계산하는 시맨틱 매칭도이다. 중첩 비율 및 cos 거리가 각각 기설정된 매칭 조건을 만족하면, 문장 제목과 문장 요약이 매칭되는 것으로 결정한다. 예를 들어, 제목 글자 집합과 요약 글자 집합의 중첩 비율이 기설정된 중첩 임계값보다 크거나 같고 또한 제목 벡터와 요약 벡터의 cos 거리가 기설정된 거리 임계값보다 작으면, 문장 제목과 문장 요약이 매칭되는 것으로 결정한다.
또한, 본 발명은 또한 URL 속성에 대해 데드 링크 정기적 검출 등 규칙을 정의할 수 있다. 따라서, 상기 단계 121에서, 상기 현재 문장의 URL 정보를 더 획득할 수 있다.
본 단계는, 기설정된 데드 링크 정기적 검출 규칙에 기반하여 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하는지 여부를 정기적으로 검출하되, 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하면, 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 단계를 더 포함할 수 있다.
구체적인 방식은, 상기 URL에 정기적으로 접속하여 연속 3회(또는 그 이상) 리턴된 응답 코드가 모두 상기 URL에 접속 불가인 것으로 나타내면, 데드 링크 현상이 존재하고 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 것일 수 있다. 본 실시예에서, 연속 횟수는 한정되지 않으며, 연구 개발자가 실제 상황에 따라 설정할 수 있다.
이로써, 본 실시예는 URL 검출을 통해 접속 불가 문장의 발생을 검출함으로써, 데이터 저품질의 데이터를 인식할 수 있다.
도 2에 도시된 바와 같이, 단계 S132에서, 내용 저품질 타입의 데이터 인식 전략 및 현재 문장에서 추출된 키워드를 이용하여, 현재 문장을 인식하여 현재 문장이 내용 저품질 타입의 데이터인지 여부에 관한 제2 인식 결과를 얻는다.
본 단계에서, 현재 문장에서 추출된 키워드를 기설정된 내용 저품질 타입의 데이터에 대응되는 키워드와 1차 매칭시켜 제1 키워드 매칭 결과를 얻고;
제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정할 수 있다.
본 실시예에서, 내용 저품질의 데이터는 주로 광고, 음란물, 도박인 3가지 측면의 데이터이다.
구체적으로, 본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 이 3가지 측면의 데이터를 상이한 방식으로 결정할 수 있다.
첫 번째, 광고 데이터의 경우, 상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 여론 데이터인 것으로 결정한다.
이로써, 1차 매칭을 통해 현재 문장이 광고 데이터인지 여부를 판단할 수 있다.
여기서, 기설정된 내용 저품질 타입의 여론 데이터에 대응되는 키워드는 미리 저장된 수동으로 선택된 고빈도 광고 키워드일 수 있고, 네트워크에서 다운로드된 광고 키워드 테이블에 추가된 광고 키워드일 수도 있다.
여기서, 네트워크에서 다운로드된 광고 키워드 테이블을 사용하여 1차 매칭을 수행함으로써, 인식 범위를 향상시키고 일반화 능력을 더욱 향상시킬 수 있다.
물론, 이러한 방식은 음란물 및 도박 관련 데이터에 대한 여론 데이터 인식에도 사용될 수 있다.
두 번째, 음란물 관련 데이터의 경우, 상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 현재 문장에서 추출된 키워드를 기설정된 신뢰 가능 키워드와 2차 매칭시켜 제2 키워드 매칭 결과를 얻는다. 제2 키워드 매칭 결과가 2차 매칭 성공인 것으로 나타내면, 상기 현재 문장은 내용 저품질 타입의 여론 데이터가 아니고; 제2 키워드 매칭 결과가 2차 매칭 실패인 것으로 나타내면, 상기 현재 문장은 내용 저품질 타입의 여론 데이터이다.
구체적으로, 본 실시예는 모델+규칙의 전략을 사용하여 음란물 관련 데이터를 인식할 수 있다. 실시예에서 1차 키워드 매칭은, 음란물 키워드에 기반하여 트레이닝된 기설정된 음란물 모델을 사용하고, 현재 문장의 키워드를 음란물 모델에 입력하여 상기 현재 문장의 키워드에 음란물 키워드가 포함되는지 여부 및 어떤 음란물 키워드가 포함되는지 여부에 관한 출력 결과를 획득하는 것이다. 음란물 모델이 음란물 키워드를 출력하였으면, 1차 매칭 성공인 것으로 나타낸다. 다음 2차 매칭 규칙을 사용하여 현재 문장의 키워드를 2차 매칭시키는데, 즉 현재 문장에서 추출된 키워드를 기설정된 신뢰 가능 키워드와 2차 매칭시켜 제2 키워드 매칭 결과를 얻는다. 여기서의 신뢰 가능 키워드는 미리 수동으로 추출된 것이며, 예를 들어 “경찰”, “어느 언론 보도” 등이다. 이로써, 현재 문장이 이러한 고신뢰 가능 키워드에 매칭되었으면, 음란물 라벨을 취소한다.
이로써, 2차 키워드 매칭을 통해 음란물 관련 데이터를 정확하게 인식함으로써, badcase의 오인식률을 감소시킬 수 있다.
물론, 이러한 방식은 광고 및 도박 관련 데이터에 대한 여론 데이터 인식에도 사용될 수 있다.
세 번째, 도박 관련 데이터의 경우, 상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 속하는 현재 웹 사이트를 결정하고, 상기 현재 웹 사이트가 기설정된 내용 저품질 타입의 여론 데이터가 속하는 웹 사이트인지 여부를 판단하되, 그렇다면 상기 현재 문장이 내용 저품질 타입의 여론 데이터인 것으로 결정한다.
구체적으로, 본 실시예는 키워드+도박 웹 사이트 필터링 단어의 방식으로 마이닝할 수 있고, 실제 장면에서 도박 내용은 보통 모호하고 제목 또는 문자 내용을 통해 발견하기 어려우므로, 일부의 도박 웹 사이트를 미리 결정한 다음 키워드+도박 웹 사이트의 방식을 통해 마이닝한다. 상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 즉 현재 문장 중 일부 키워드와 기설정된 도박 관련 키워드의 매칭이 성공한 후, 현재 문장이 속하는 현재 웹 사이트가 상기 도박 웹 사이트에 속하는지 여부를 추가적으로 판단하되, 그렇다면 상기 현재 문장이 도박 관련 내용 저품질 타입의 여론 데이터인 것으로 결정한다.
이로써, 도박 관련 여론 데이터를 마이닝함으로써, 도박 관련 여론 데이터의 마이닝 정확성을 향상시킬 수 있다.
물론, 이러한 방식은 광고 및 음란물 관련 데이터에 대한 여론 데이터 인식에도 사용될 수 있다.
도 2를 참조하면, 단계 S133에서, 감정 분석 부정확 타입의 데이터 인식 전략 및 상기 현재 문장의 감정 극성 라벨을 이용하여, 현재 문장을 인식하여 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부에 관한 제3 인식 결과를 얻는다.
감정 분석은 상대적으로 성숙된 기술이며, 이미 예컨대 사전 기반의 감성 극성 분석 알고리즘, 이웃 알고리즘(k_NN) 기반의 감성 극성 분석 알고리즘, 베이즈(Bayes) 기반의 감성 극성 분석 알고리즘, 최대 엔트로피 기반의 감성 극성 분석 알고리즘, 서포트 벡터 머신(SVM) 기반의 감성 극성 분석 알고리즘 등 몇 가지 비교적 성숙한 감정 극성 분석 알고리즘이 있다.
본 실시예에서, 현재 문장의 감정 극성 라벨은 상기 현재 문장의 발표 과정에서 제1 감성 극성 분석 알고리즘으로 분석하여 획득된 것이다.
이로써, 제1 감성 극성 분석 알고리즘과 상이한 제2 감성 극성 분석 알고리즘을 사용하여 분석할 문장에 대해 감정 분석을 수행하여 분석할 문장의 현재 감정 극성을 얻을 수 있다.
다음, 현재 감정 극성과 상기 발표된 감정 극성 라벨의 일치 여부에 기반하여 상기 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부를 결정한다.
이로써, 본 실시예를 통해 감정 분석 부정확한 문장을 정확하게 마이닝할 수 있는데, 이는 후속 감성 극성 분석 알고리즘에 대한 진일보의 조정을 위해 유리한 데이터 지원을 제공한다.
구체적으로, 본 발명의 기술적 해결수단을 여론 시스템에 적용할 경우, 상기 현재 감정 극성과 상기 감정 극성 라벨의 극성이 반대인지 여부, 및 상기 제2 감성 극성 분석 알고리즘에 의해 출력된 현재 감정 극성의 신뢰도가 기설정 임계값보다 크거나 같은지 여부를 판단하되, 그렇다면 상기 현재 문장이 감정 분석 부정확 타입의 여론 데이터인 것으로 결정할 수 있다.
실제 감정 분석 장면에서, 본 발명의 발명자는 사용자가 중립 극성의 오류보다 긍정/부정 극성의 문장 감정 분석 오류에 대한 반감 정도가 훨씬 큰 것을 발견하였다. 즉, 사용자는 긍정적/부정적인 경향의 결정에 매우 민감하다. 예를 들어, “누구는 특정 범죄로 인해 3년의 유기 징역을 선고받았다”는 이 글의 감정 경향은 중립이거나 부정적일 수 있다. 그러나 이 글이 긍정적으로 판정되면 받아들일 수 없다. 또한 예를 들어, “7월 1일부터 A시는 쓰레기 분류를 전면 시행한다”는 이 글의 감정 경향은 중립이거나 긍정적일 수 있지만, 부정적으로 판정되면 이것은 명확한 오류이다.
따라서, 이상의 사용자 심리의 관찰 분석에 기반하여, 본 발명에서 사용된 감정 분석 부정확 타입의 데이터의 마이닝 규칙은 다음과 같은 3개의 측면을 포함할 수 있다. a. 제2 감성 극성 분석 알고리즘을 사용하여 얻은 현재 감정 극성과 제1 감성 극성 분석 알고리즘을 사용하여 얻은 감정 극성 라벨의 극성은 반대이고; b. 반대인 극성은 긍정 극성과 부정 극성을 의미하며; c. 제2 감성 극성 분석 알고리즘을 사용하여 얻은 현재 감정 극성의 신뢰도는 0.95 이상이다. 이 3개 측면의 규칙이 모두 만족되면, 감정 분석 부정확한 badcase로 판정된다.
이로부터 알 수 있는 바, 본 실시예는 이 3개 측면의 규칙을 통해 감정 분석 부정확한 여론 데이터를 마이닝하는 방식은 사용자 심리에 더 부합됨으로써, 마이닝된 감정 분석 부정확한 여론 데이터는 더 정확하다.
여기서, 제2 감성 극성 분석 알고리즘은 NLPC 도구에 의해 제공되는 분석 알고리즘일 수 있고, 제1 감성 극성 분석 알고리즘은 NLPC 도구에 의해 제공되는 분석 알고리즘과 상이한 감정 분석 알고리즘이다.
구체적으로, NLPC는 먼저 대규모 데이터 세트에서 언어 모델 ERNIE를 미리 트레이닝한 다음, ERNIE에 기반하여 감정 극성 분류 모델을 트레이닝하였다. 신뢰도, 즉 신뢰도=softmax(y)를 위해 ERNIE 모델의 추정값을 취하되, 여기서, y는 ERNIE 모델에 의해 예측된 극성의 벡터이다.
도 2에 도시된 실시예로부터 알 수 있는 바, 본 발명의 제2 실시예를 통해 데이터를 마이닝할 경우, 마이닝하는 동시에 마이닝된 데이터를 직접 3가지 주요 타입으로 나눌 수 있다.
도 3을 참조하면, 도 3은 본 발명에 의한 데이터 마이닝 방법이 여론 시스템에 적용되는 여론 데이터 분류 모식도이다. 도 3에 도시된 바와 같이, 여론 badcase 데이터는 데이터 저품질, 내용 저품질 및 감정 분석 부정확인 3가지 주요 타입으로 나눌 수 있다.
여기서, 데이터 저품질 타입은 또한 매칭되는 상이한 구체적인 규칙에 따라 제목이 너무 짧음, 제목이 너무 김, 제목이 비어 있음, 요약이 너무 짧음, 요약이 비어 있음, 요약이 너무 김, 문장 내용이 중복됨, 제목이 깨짐, 요약이 깨짐, 문장 내용이 깨짐, 데드 링크, 및 제목과 요약의 불일치인 12가지 하위 타입으로 나눌 수 있다. 만일 매칭 규칙을 증가하면, 데이터 저품질인 여론 데이터는 더 많은 하위 타입으로 나눌 수 있다.
여기서, 내용 저품질 타입은 또한 문장의 내용에 따라 음란물 관련 데이터, 광고 데이터 및 도박 관련 데이터인 3가지 하위 타입으로 나눌 수 있다.
감정 분석 부정확 타입은 또한 감정 극성의 구체적인 오류에 따라 부정적 판단 오류, 긍정적 판단 오류 및 불명확인 3가지 하위 타입으로 나눌 수 있다.
상기 데이터 마이닝 방법을 사용하여 웹 페이지 데이터에서 일정량의 badcase를 발견할 수 있다. 실제 응용에서, 마이닝 결과가 보다 정확하도록 수동 심사를 수행할 수도 있다. 구체적으로, 도 4a를 참조하면, 도 4a는 본 발명에 의한 데이터 마이닝 방법의 제3 실시예의 흐름 모식도이고, 도 4a에 도시된 바와 같이, 상기 흐름은 도 2에 기초하여 하기와 같은 단계가 추가된다.
단계 S410에서, 데이터 타입이 결정된 각 문장을 마이닝된 데이터로서 연구 개발 사용자에게 출력하여 심사하도록 한다.
단계 S420에서, 심사 통과된 각 타입의 데이터를 통계하여 통계 정보를 획득하여 연구 개발 사용자에게 출력한다.
본 실시예에서, 기존의 수동 심사 방식과 달리 excel 모드를 사용하지 않을 수 있다. 본 실시예는 바이두(Baidu)의 amis 플랫폼을 사용하여 심사할 수 있으며 여러 사람의 심사를 지원한다. 심사 결과는 데이터베이스에 동기적으로 입력되며, 실시간 통계 및 심사율 계산, 리포트의 실시간 출력을 지원한다.
도 4b를 참조하면, 도 4b는 본 발명에 의한 데이터 마이닝 방법이 여론 시스템에 적용되는 여론 분석의 전체 과정 모식도이다. 도 4b에 도시된 바와 같이, 먼저 여론 시스템에 의해 생성된 문장을 획득하고; 다음 상기 여론 데이터 마이닝 방법을 사용하여 각 문장의 품질을 분석하여 데이터 저품질, 내용 저품질 및 감정 분석 부정확의 저품질 문장을 획득하며; 그 다음 플랫폼에서 수동으로 심사하여 저품질 문제를 획득하고; 그 다음 시스템에 의해 자동으로 수요 카드를 구축한 다음 개발자에 의해 이러한 문제를 복구하며; 문제가 복구된 후, 다시 여론 시스템에 의해 생성된 문장을 획득하는 과정으로 돌아가 여론 분석 결과를 다시 생성한다. 이로써, 데이터 생성으로부터 여론 모니터링(즉, 여론 데이터 마이닝), 문제 복구, 데이터 생성까지의 폐쇄 루프가 형성된다.
본 실시예에서, 바이두(Baidu)의 amis 플랫폼에 의해 제공되는 수요 카드 자동 구축 기능을 사용할 수 있다. 사용자가 카드 구축 버튼을 클릭한 후, 수요 카드 자동 구축을 구현한다. 수요 카드는 badcase의 타입에 따라 정의되어 구축된 것으로, 각 여론 데이터의 타입은 하나의 수요 카드에 대응된다. 수요 카드에 표시된 정보는 badcase의 타입, badcase 개수, 복구 우선순위 및 badcase의 발견 단계를 포함할 수 있다. 연구 개발자가 구체적으로 어떠한 badcase가 있는지 찾아 복구 및 라벨링하도록 하기 위한 상기 타입의 badcase의 구체적인 점프 링크를 더 포함할 수 있다.
여기서의 복구 우선순위는 현재 주로 마이닝의 전체 샘플 개수에서 상기 타입의 badcase 개수가 차지하는 비율(badcase 회수율)에 의해 결정된다.
구체적인 등급 결정 규칙은 하기와 같다.
회수율≥3%이면 등급을 P0-Highest로 결정;
1% <회수율<3%이면 등급을 P1-Middle로 결정;
회수율≤1%이면 등급을 P2-Low로 결정.
본 실시예에서, 문제 복구 방법은 다양하다. 가장 직접적인 복구 방법은 시스템의 데이터베이스에서 이러한 타입의 모든 badcase를 삭제하여 온라인에 더 이상 표시하지 않는 것이다. 그러나 이러한 방법은 여론의 문장 데이터베이스가 실시간으로 업데이트되기 때문에 표면적인 문제만 해결하고 근본적인 문제를 해결하지 못한다. 따라서, 전략 알고리즘에서 최적화할 수도 있는데, 구체적인 badcase에는 상이한 해결 전략이 필요하다.
제목 또는 요약이 너무 짧음/너무 김/비어 있음, 제목 또는 요약이 깨짐, 데드 링크, 문장 내용이 중복됨 등 이러한 타입의 badcase에 대한 복구 방안은 하기와 같다.
여론 시스템이 문장을 생성할 때 자체적으로 일련의 필터링 시스템을 가지고 있으며, 여론 시스템이 문장을 생성할 때 관련 임계값을 설정하거나 사이트 화이트리스를 최적화한다.
제목과 요약의 불일치의 경우: 이러한 경우 여론 시스템이 사용하는 요약 추출 모델 효과가 기대에 미치지 못함을 나타내므로, 대응되는 모델 전략을 최적화해야 한다.
광고, 도박, 음란물 등 이러한 타입의 badcase에 대한 최적화도 모델 측면에서 최적화해야 한다.
감정 분석 부정확의 경우, 감정 분석의 badcase가 나타나면, 여론 시스템이 사용하는 감정 분석 모델 알고리즘이 일부 badcase에 대해 작용하지 않음을 나타내므로, 구체적인 badcase를 분석하고, 트레이닝 세트를 확장하며, 모델을 다시 트레이닝해야 한다.
본 발명의 실시예에 따르면, 본 발명은 데이터 마이닝 장치를 더 제공한다.
도 5를 참조하면, 도 5는 본 발명에 의한 데이터 마이닝 장치의 제1 실시예의 구조 모식도이다. 도 5에 도시된 바와 같이, 상기 데이터 마이닝 장치는,
마이닝할 현재 문장을 획득하는 현재 문장 획득 모듈(510);
기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 정보 값 획득 모듈(520);
상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 데이터 타입 인식 모듈(530); 및
상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 데이터 타입 결정 모듈(540)을 포함한다.
상기 실시예로부터 알 수 있는 바, 본 발명에 의해 제공된 데이터 마이닝 장치는, 기설정된 다수의 데이터 인식 전략에 기반하여 웹 페이지 데이터에 대해 데이터 분류 마이닝을 수행하여 상이한 타입의 데이터를 효과적으로 마이닝할 수 있다. 현재 흔히 사용되는 웹 페이지 데이터에 대한 수동 데이터 마이닝과 비교할 때 더 효율적이고 정확하다.
본 실시예에서, 데이터의 기설정 타입은 데이터 저품질, 내용 저품질 및 감정 분석 부정확을 포함할 수 있다.
도 6을 참조하면, 도 6은 본 발명에 의한 데이터 마이닝 장치의 제2 실시예의 구조 모식도이다. 도 6에 도시된 바와 같이, 상기 데이터 마이닝 장치는 도 5에 기초하여, 정보 값 획득 모듈(520)은 구체적으로,
데이터 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 문장 제목, 문장 요약 및 문장 내용을 획득하는 제1 정보 값 획득 서브 모듈(521);
내용 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 키워드를 추출하는 제2 정보 값 획득 서브 모듈(522); 및
감정 분석 부정확 타입의 데이터 인식 전략에 기반하여 현재 문장에서 발표된 감정 극성 라벨을 획득하는 제3 정보 값 획득 서브 모듈(523)을 포함한다.
도 6에 도시된 바와 같이, 상기 데이터 타입 인식 모듈(530)은 구체적으로,
데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는 제1 인식 서브 모듈(531);
내용 저품질 타입의 데이터 인식 전략 및 현재 문장에서 추출된 키워드를 이용하여, 현재 문장을 인식하여 현재 문장이 내용 저품질 타입의 데이터인지 여부에 관한 제2 인식 결과를 얻는 제2 인식 서브 모듈(532); 및
감정 분석 부정확 타입의 데이터 인식 전략 및 상기 현재 문장의 감정 극성 라벨을 이용하여, 현재 문장을 인식하여 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부에 관한 제3 인식 결과를 얻는 제3 인식 서브 모듈(533)을 포함한다.
여기서, 상기 제1 인식 서브 모듈(531)은 구체적으로,
상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 데이터 저품질 타입의 데이터 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정한다.
상기 제1 정보 값 획득 서브 모듈(521)은 또한,상기 현재 문장의 URL 정보를 획득하고; 상기 제1 인식 서브 모듈(531)은 또한 구체적으로, 기설정된 데드 링크 정기적 검출 규칙에 기반하여 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하는지 여부를 정기적으로 검출하되, 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하면, 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정한다.
상기 제2 인식 서브 모듈(532)은,
현재 문장에서 추출된 키워드를 기설정된 내용 저품질 타입의 데이터에 대응되는 키워드와 1차 매칭시켜 제1 키워드 매칭 결과를 얻는 제1 매칭 유닛; 및
제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 결정 유닛을 포함할 수 있다.
여기서, 상기 결정 유닛은 구체적으로,상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정하거나; 또는,
상기 결정 유닛은 구체적으로,상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 현재 문장에서 추출된 키워드를 기설정된 신뢰 가능 키워드와 2차 매칭시켜 제2 키워드 매칭 결과를 얻고; 제2 키워드 매칭 결과가 2차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터가 아니고, 제2 키워드 매칭 결과가 2차 매칭 실패인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터이거나; 또는,
상기 결정 유닛은 구체적으로,
상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 속하는 현재 웹 사이트를 결정하고;
상기 현재 웹 사이트가 기설정된 내용 저품질 타입의 데이터가 속하는 웹 사이트인지 여부를 판단하되, 그렇다면 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정한다.
여기서, 상기 현재 문장의 감정 극성 라벨은 상기 현재 문장의 발표 과정에서 제1 감성 극성 분석 알고리즘으로 분석하여 획득된 것이고;
상기 제3 인식 서브 모듈(533)은 구체적으로,
상기 제1 감성 극성 분석 알고리즘과 상이한 제2 감성 극성 분석 알고리즘을 사용하여 분석할 문장에 대해 감정 분석을 수행하여 분석할 문장의 현재 감정 극성을 얻고;
현재 감정 극성과 상기 발표된 감정 극성 라벨의 일치 여부에 기반하여 상기 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부를 결정한다.
도 7을 참조하면, 도 7은 본 발명에 의한 데이터 마이닝 장치의 제3 실시예의 구조 모식도이다. 도 7에 도시된 바와 같이, 상기 데이터 마이닝 장치는 도 6에 기초하여,
데이터 타입이 결정된 각 웹 페이지 문장을 마이닝된 데이터로서 연구 개발 사용자에게 출력하여 심사하도록 하는 심사 모듈(710); 및
심사 통과된 각 타입의 데이터를 통계하여 통계 정보를 획득하여 연구 개발 사용자에게 출력하는 통계 모듈(720)을 더 포함한다.
본 발명의 기술적 해결수단에서, 언급된 사용자 개인 정보의 획득, 저장 및 적용 등은 모두 관련 법률 법규의 규정에 부합되며, 공서양속에 위배되지 않는다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 8은 본 발명의 실시예를 구현하는데 사용될 수 있는 예시적인 전자 기기의 예시적인 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시에 불과하며, 본 명세서에 설명 및/또는 요구되는 본 발명의 구현을 한정하도록 의도되지 않는다.
도 8에 도시된 바와 같이, 전자 기기(800)는 판독 전용 메모리(ROM)(802)에 저장된 컴퓨터 프로그램 또는 저장 유닛(808)으로부터 랜덤 액세스 메모리(RAM)(803)로 다운로드된 컴퓨터 프로그램에 따라 다양한 적절한 동작 및 처리를 수행할 수 있는 컴퓨팅 유닛(801)을 포함한다. RAM(803)에는 기기(800)의 작동에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. 컴퓨팅 유닛(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(805)도 버스(804)에 연결된다.
전자 기기(800)의 키보드, 마우스 등과 같은 입력 유닛(806); 다양한 타입의 디스플레이, 스피커 등과 같은 출력 유닛(807); 자기 디스크, 광 디스크 등과 같은 저장 유닛(808); 랜 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(809)을 포함하는 다수의 부재는 I/O 인터페이스(805)에 연결된다. 통신 유닛(809)은 기기(800)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허용한다.
컴퓨팅 유닛(801)은 처리 및 컴퓨팅 기능을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(801)의 일부 예시는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 다양한 인공 지능(AI) 컴퓨팅 칩, 기계 학습 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP), 및 임의의 적절한 프로세서, 컨트롤러, 마이크로컨트롤러 등을 포함하지만 이에 한정되지 않는다. 컴퓨팅 유닛(801)은 상술한 임의의 데이터 마이닝 방법과 같은 위에서 설명된 다양한 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 데이터 마이닝 방법은 저장 유닛(808)과 같은 기계 판독 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)을 통해 기기(800)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(803)에 로딩되어 컴퓨팅 유닛(801)에 의해 실행될 경우, 위에서 설명된 데이터 마이닝 방법의 하나 이상의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(801)은 다른 임의의 적절한 방식을 통해(예를 들어, 펌웨어에 의해) 상술한 임의의 데이터 마이닝 방법을 수행하도록 구성될 수 있다.
본 명세서에 이상의 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래머블 게이트 어레이(FPGA), 응용 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 구현하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 사용하여 프로그래밍될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 경우 흐름도 및/또는 블록도에 규정된 기능/동작이 수행되도록 할 수 있다. 프로그램 코드는 기계에서 완전히 또는 부분적으로 실행될 수 있고, 기계에서 독립 소프트웨어 패키지로서 부분적으로 실행되며 원격 기계에서 부분적으로 실행되거나, 원격 기계 또는 서버에서 완전히 실행될 수 있다.
본 발명의 앞뒤 문맥에서, 기계 판독 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함 또는 저장할 수 있는 유형의 매체일 수 있다. 기계 판독 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시는 하나 이상의 전선 기반의 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광 저장 장치, 자기 저장 장치, 또는 이들의 임의의 조합을 포함하지만 이에 한정되지 않는다.
사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 다른 타입의 장치는 사용자와의 인터랙션을 제공하는데 사용될 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 사용자로부터의 정보를 수신할 수 있다.
여기에 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터일 수 있으며, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부재는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 서로 연결될 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광역망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙션한다. 대응되는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램을 통해 클라이언트와 서버 간의 관계를 생성한다.
위에서 설명된 다양한 형태의 프로세스를 통해 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계들은 병렬, 순차적 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 원하는 결과를 달성할 수만 있으면, 본 명세서는 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 제한하지 않는다. 당업자는 설계 요구 및 다른 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 사상과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위에 포함되어야 한다.

Claims (24)

  1. 데이터 마이닝 방법으로서,
    마이닝할 현재 문장을 획득하는 단계;
    기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 단계;
    상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 단계; 및
    상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 단계를 포함하는 데이터 마이닝 방법.
  2. 청구항 1에 있어서,
    상기 데이터의 기설정 타입은 데이터 저품질, 내용 저품질 및 감정 분석 부정확을 포함하고;
    상기 기설정된 다수의 데이터 인식 전략에 기반하여 현재 문장에서 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 단계는,
    데이터 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 문장 제목, 문장 요약 및 문장 내용을 획득하는 단계;
    내용 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 키워드를 추출하는 단계; 및
    감정 분석 부정확 타입의 데이터 인식 전략에 기반하여 현재 문장에서 발표된 감정 극성 라벨을 획득하는 단계를 포함하는 데이터 마이닝 방법.
  3. 청구항 2에 있어서,
    상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 단계는,
    데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는 단계;
    내용 저품질 타입의 데이터 인식 전략 및 현재 문장에서 추출된 키워드를 이용하여, 현재 문장을 인식하여 현재 문장이 내용 저품질 타입의 데이터인지 여부에 관한 제2 인식 결과를 얻는 단계; 및
    감정 분석 부정확 타입의 데이터 인식 전략 및 상기 현재 문장의 감정 극성 라벨을 이용하여, 현재 문장을 인식하여 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부에 관한 제3 인식 결과를 얻는 단계를 포함하는 데이터 마이닝 방법.
  4. 청구항 3에 있어서,
    상기 데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는 단계는,
    상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 데이터 저품질 타입의 데이터 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 단계를 포함하는 데이터 마이닝 방법.
  5. 청구항 4에 있어서,
    상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 데이터 저품질 타입의 데이터 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 단계는,
    상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 문자 길이 규칙 또는 깨짐(garbled) 규칙 및 문장 제목과 문장 요약의 매칭 여부의 규칙 중 하나 이상의 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 단계를 포함하는 데이터 마이닝 방법.
  6. 청구항 5에 있어서,
    상기 문장 제목과 문장 요약의 매칭 여부의 규칙은,
    현재 문장이 문장 제목과 문장 요약의 문자 비매칭, 및 문장 제목과 문장 요약의 시맨틱 비매칭 중 적어도 하나에 부합되면, 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 것을 포함하는 데이터 마이닝 방법.
  7. 청구항 4에 있어서,
    상기 기설정된 다수의 데이터 인식 전략에 기반하여 현재 문장에서 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 단계는,
    상기 현재 문장의 URL 정보를 획득하는 단계를 더 포함하고;
    상기 데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는 단계는,
    기설정된 데드 링크 정기적 검출 규칙에 기반하여 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하는지 여부를 정기적으로 검출하되, 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하면, 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 단계를 더 포함하는 데이터 마이닝 방법.
  8. 청구항 3에 있어서,
    상기 내용 저품질 타입의 데이터 인식 전략 및 현재 문장에서 추출된 키워드를 이용하여, 현재 문장을 인식하여 현재 문장이 내용 저품질 타입의 데이터인지 여부에 관한 제2 인식 결과를 얻는 단계는,
    현재 문장에서 추출된 키워드를 기설정된 내용 저품질 타입의 데이터에 대응되는 키워드와 1차 매칭시켜 제1 키워드 매칭 결과를 얻는 단계; 및
    제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 단계를 포함하는 데이터 마이닝 방법.
  9. 청구항 8에 있어서,
    상기 제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 단계는,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정하는 단계를 포함하거나; 또는,
    상기 제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 단계는,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 현재 문장에서 추출된 키워드를 기설정된 신뢰 가능 키워드와 2차 매칭시켜 제2 키워드 매칭 결과를 얻는 단계; 및
    제2 키워드 매칭 결과가 2차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터가 아니고, 제2 키워드 매칭 결과가 2차 매칭 실패인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터인 단계를 포함하거나; 또는,
    상기 제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 단계는,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 속하는 현재 웹 사이트를 결정하는 단계; 및
    상기 현재 웹 사이트가 기설정된 내용 저품질 타입의 데이터가 속하는 웹 사이트인지 여부를 판단하되, 그렇다면 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정하는 단계를 포함하는 데이터 마이닝 방법.
  10. 청구항 3에 있어서,
    상기 현재 문장의 감정 극성 라벨은 상기 현재 문장의 발표 과정에서 제1 감성 극성 분석 알고리즘으로 분석하여 획득된 것이고;
    상기 감정 분석 부정확 타입의 데이터 인식 전략 및 상기 현재 문장의 감정 극성 라벨을 이용하여, 현재 문장을 인식하여 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부에 관한 제3 인식 결과를 얻는 단계는,
    상기 제1 감성 극성 분석 알고리즘과 상이한 제2 감성 극성 분석 알고리즘을 사용하여 분석할 문장에 대해 감정 분석을 수행하여 분석할 문장의 현재 감정 극성을 얻는 단계; 및
    현재 감정 극성과 상기 발표된 감정 극성 라벨의 일치 여부에 기반하여 상기 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부를 결정하는 단계를 포함하는 데이터 마이닝 방법.
  11. 청구항 10에 있어서,
    상기 현재 감정 극성과 상기 발표된 감정 극성 라벨의 일치 여부에 기반하여 상기 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부를 결정하는 단계는,
    상기 현재 감정 극성과 상기 감정 극성 라벨의 극성이 반대인지 여부, 및 상기 제2 감성 극성 분석 알고리즘에 의해 출력된 현재 감정 극성의 신뢰도가 기설정 임계값보다 크거나 같은지 여부를 판단하되, 그렇다면 상기 현재 문장이 감정 분석 부정확 타입의 데이터인 것으로 결정하는 단계를 포함하는 데이터 마이닝 방법.
  12. 청구항 1 내지 청구항 11 중 어느 한 항에 있어서,
    데이터 타입이 결정된 각 문장을 마이닝된 데이터로서 연구 개발 사용자에게 출력하여 심사하도록 하는 단계; 및
    심사 통과된 각 타입의 데이터를 통계하여 통계 정보를 획득하여 연구 개발 사용자에게 출력하는 단계를 더 포함하는 데이터 마이닝 방법.
  13. 데이터 마이닝 장치로서,
    마이닝할 현재 문장을 획득하는 현재 문장 획득 모듈;
    기설정된 다수의 데이터 인식 전략에 기반하여, 현재 문장에서 기설정 타입의 데이터를 인식하기 위한 각각의 데이터 인식 전략에 필요한 정보 값을 획득하는 정보 값 획득 모듈;
    상기 각각의 데이터 인식 전략을 각각 이용하여, 상기 인식 전략에 필요한 정보 값에 기반하여 현재 문장에 대해 데이터 타입 인식을 수행하여 데이터 타입 인식 결과를 얻는 데이터 타입 인식 모듈; 및
    상기 데이터 타입 인식 결과에 근거하여 현재 문장이 어느 하나의 기설정 타입의 데이터에 속하는지 여부를 결정하는 데이터 타입 결정 모듈을 포함하는 데이터 마이닝 장치.
  14. 청구항 13에 있어서,
    상기 데이터의 기설정 타입은 데이터 저품질, 내용 저품질 및 감정 분석 부정확을 포함하고;
    상기 정보 값 획득 모듈은,
    데이터 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 문장 제목, 문장 요약 및 문장 내용을 획득하는 제1 정보 값 획득 서브 모듈;
    내용 저품질 타입의 데이터 인식 전략에 기반하여 현재 문장에서 키워드를 추출하는 제2 정보 값 획득 서브 모듈; 및
    감정 분석 부정확 타입의 데이터 인식 전략에 기반하여 현재 문장에서 발표된 감정 극성 라벨을 획득하는 제3 정보 값 획득 서브 모듈을 포함하는 데이터 마이닝 장치.
  15. 청구항 14에 있어서,
    상기 데이터 타입 인식 모듈은,
    데이터 저품질 타입의 데이터 인식 전략 및 상기 문장 제목, 문장 요약 및 문장 내용을 이용하여, 현재 문장을 인식하여 현재 문장이 데이터 저품질 타입의 데이터인지 여부에 관한 제1 인식 결과를 얻는 제1 인식 서브 모듈;
    내용 저품질 타입의 데이터 인식 전략 및 현재 문장에서 추출된 키워드를 이용하여, 현재 문장을 인식하여 현재 문장이 내용 저품질 타입의 데이터인지 여부에 관한 제2 인식 결과를 얻는 제2 인식 서브 모듈; 및
    감정 분석 부정확 타입의 데이터 인식 전략 및 상기 현재 문장의 감정 극성 라벨을 이용하여, 현재 문장을 인식하여 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부에 관한 제3 인식 결과를 얻는 제3 인식 서브 모듈을 포함하는 데이터 마이닝 장치.
  16. 청구항 15에 있어서,
    상기 제1 인식 서브 모듈은 구체적으로,
    상기 현재 문장의 문장 제목, 문장 요약 및 문장 내용이 기설정된 데이터 저품질 타입의 데이터 규칙을 만족하는지 여부를 판단하되, 만족하면 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 데이터 마이닝 장치.
  17. 청구항 15에 있어서,
    상기 제1 정보 값 획득 서브 모듈은 또한,상기 현재 문장의 URL 정보를 획득하고;
    상기 제1 인식 서브 모듈은 또한 구체적으로,
    기설정된 데드 링크 정기적 검출 규칙에 기반하여 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하는지 여부를 정기적으로 검출하되, 현재 문장의 URL에 접속 불가 데드 링크 현상이 존재하면, 상기 현재 문장이 데이터 저품질 타입의 데이터인 것으로 결정하는 데이터 마이닝 장치.
  18. 청구항 15에 있어서,
    상기 제2 인식 서브 모듈은,
    현재 문장에서 추출된 키워드를 기설정된 내용 저품질 타입의 데이터에 대응되는 키워드와 1차 매칭시켜 제1 키워드 매칭 결과를 얻는 제1 매칭 유닛; 및
    제1 키워드 매칭 결과에 기반하여 상기 현재 문장이 내용 저품질 타입의 데이터인지 여부를 결정하는 결정 유닛을 포함하는 데이터 마이닝 장치.
  19. 청구항 18에 있어서,
    상기 결정 유닛은 구체적으로,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정하거나; 또는,
    상기 결정 유닛은 구체적으로,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 현재 문장에서 추출된 키워드를 기설정된 신뢰 가능 키워드와 2차 매칭시켜 제2 키워드 매칭 결과를 얻고;
    제2 키워드 매칭 결과가 2차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터가 아니고, 제2 키워드 매칭 결과가 2차 매칭 실패인 것으로 나타내면, 상기 현재 문장이 내용 저품질 타입의 데이터이거나; 또는,
    상기 결정 유닛은 구체적으로,
    상기 제1 매칭 결과가 1차 매칭 성공인 것으로 나타내면, 상기 현재 문장이 속하는 현재 웹 사이트를 결정하고;
    상기 현재 웹 사이트가 기설정된 내용 저품질 타입의 데이터가 속하는 웹 사이트인지 여부를 판단하되, 그렇다면 상기 현재 문장이 내용 저품질 타입의 데이터인 것으로 결정하는 데이터 마이닝 장치.
  20. 청구항 15에 있어서,
    상기 현재 문장의 감정 극성 라벨은 상기 현재 문장의 발표 과정에서 제1 감성 극성 분석 알고리즘으로 분석하여 획득된 것이고;
    상기 제3 인식 서브 모듈은 구체적으로,
    상기 제1 감성 극성 분석 알고리즘과 상이한 제2 감성 극성 분석 알고리즘을 사용하여 분석할 문장에 대해 감정 분석을 수행하여 분석할 문장의 현재 감정 극성을 얻고;
    현재 감정 극성과 상기 발표된 감정 극성 라벨의 일치 여부에 기반하여 상기 현재 문장이 감정 분석 부정확 타입의 데이터인지 여부를 결정하는 데이터 마이닝 장치.
  21. 청구항 13 내지 청구항 20 중 어느 한 항에 있어서,
    데이터 타입이 결정된 각 웹 페이지 문장을 마이닝된 데이터로서 연구 개발 사용자에게 출력하여 심사하도록 하는 심사 모듈; 및
    심사 통과된 각 타입의 데이터를 통계하여 통계 정보를 획득하여 연구 개발 사용자에게 출력하는 통계 모듈을 더 포함하는 데이터 마이닝 장치.
  22. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하고;
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 청구항 1 내지 청구항 11 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 전자 기기.
  23. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터가 청구항 1 내지 청구항 11 중 어느 한 항에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  24. 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 청구항 1 내지 청구항 11 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 제품.
KR1020220080077A 2021-06-30 2022-06-29 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체 KR20230004333A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110742126.6A CN113535813B (zh) 2021-06-30 2021-06-30 一种数据挖掘方法、装置、电子设备以及存储介质
CN202110742126.6 2021-06-30

Publications (1)

Publication Number Publication Date
KR20230004333A true KR20230004333A (ko) 2023-01-06

Family

ID=78097482

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220080077A KR20230004333A (ko) 2021-06-30 2022-06-29 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11755677B2 (ko)
EP (1) EP4113321A1 (ko)
JP (1) JP2023008943A (ko)
KR (1) KR20230004333A (ko)
CN (1) CN113535813B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN117056150B (zh) * 2023-10-10 2024-01-26 宁波银行股份有限公司 一种网络附属存储检测方法、装置、设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065180A2 (en) * 2002-02-01 2003-08-07 John Fairweather System and method for creating a distributed network architecture
US7219099B2 (en) * 2002-05-10 2007-05-15 Oracle International Corporation Data mining model building using attribute importance
JP2004005025A (ja) * 2002-05-30 2004-01-08 Mazda Motor Corp テキスト分類装置、テキスト分類方法及びそのコンピュータ・プログラム
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
US8862497B2 (en) * 2007-01-02 2014-10-14 Washington State University Research Foundation Method and system of determining and issuing user incentives on a web server via assessment of user-generated content relevance and value
US9183203B1 (en) * 2009-07-01 2015-11-10 Quantifind, Inc. Generalized data mining and analytics apparatuses, methods and systems
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103544242B (zh) * 2013-09-29 2017-02-15 广东工业大学 面向微博的情感实体搜索系统
US10902468B2 (en) * 2014-06-23 2021-01-26 Board Of Regents, The University Of Texas System Real-time, stream data information integration and analytics system
CN104077377B (zh) * 2014-06-25 2018-02-23 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN105556514B (zh) * 2014-06-25 2020-11-20 北京百度网讯科技有限公司 一种基于用户搜索行为进行数据挖掘的方法和装置
US9876699B2 (en) * 2015-10-21 2018-01-23 Wipro Limited System and method for generating a report in real-time from a resource management system
US10757061B1 (en) * 2016-08-18 2020-08-25 Hrl Laboratories, Llc Cross-modal event summarization system based on network of networks representations
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN107491432B (zh) * 2017-06-20 2022-01-28 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN108717406B (zh) * 2018-05-10 2021-08-24 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108984675B (zh) * 2018-07-02 2019-08-13 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
US11727800B2 (en) * 2018-12-04 2023-08-15 Mark43, Inc. System and method for law enforcement incident reporting
JP2020154821A (ja) * 2019-03-20 2020-09-24 株式会社ミクシィ 記事推奨システム
KR102228585B1 (ko) * 2019-05-03 2021-03-16 주식회사 자이냅스 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법
KR102371505B1 (ko) * 2019-05-03 2022-03-08 주식회사 자이냅스 빅데이터를 활용하여 뉴스를 레이블링하는 프로그램
KR102361596B1 (ko) * 2019-05-03 2022-02-11 주식회사 자이냅스 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 방법
CN110427549A (zh) * 2019-06-20 2019-11-08 北京清博大数据科技有限公司 一种网络舆论溯源分析方法、装置、终端及存储介质
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
US11574150B1 (en) * 2019-11-18 2023-02-07 Wells Fargo Bank, N.A. Data interpretation analysis
US11783205B2 (en) * 2019-12-17 2023-10-10 Sap Se Machine learning-based rule mining algorithm
CN111538828B (zh) * 2020-04-21 2023-04-25 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质
CN111522888B (zh) * 2020-04-22 2023-06-20 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
CN111708858B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 一种地图数据处理方法、装置、设备以及存储介质
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
JP2023008943A (ja) 2023-01-19
CN113535813A (zh) 2021-10-22
US11755677B2 (en) 2023-09-12
EP4113321A1 (en) 2023-01-04
US20230004613A1 (en) 2023-01-05
CN113535813B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
KR20230004333A (ko) 데이터 마이닝 방법, 장치, 전자 기기 및 저장 매체
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
US10691770B2 (en) Real-time classification of evolving dictionaries
US9632998B2 (en) Claim polarity identification
Álvarez-Carmona et al. Semantically-informed distance and similarity measures for paraphrase plagiarism identification
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
US20220261732A1 (en) Framework for early warning of domain-specific events
US20140272842A1 (en) Assessing cognitive ability
WO2024037483A1 (zh) 文本处理方法、装置、设备及介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN112632377A (zh) 一种基于用户评论情感分析与矩阵分解的推荐方法
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质
CN114186552B (zh) 文本分析方法、装置、设备及计算机存储介质
CN113656592B (zh) 基于知识图谱的数据处理方法、装置、电子设备和介质
Mamatha et al. Supervised aspect category detection of co-occurrence data using conditional random fields
US11907668B2 (en) Method for selecting annotated sample, apparatus, electronic device and storage medium
CN113971216B (zh) 数据处理方法、装置、电子设备和存储器
Shaalan et al. Machine Learning Chatbot for Sentiment Analysis of Covid-19 Tweets
Miranda et al. Indonesia China Trade Relations, Social Media and Sentiment Analysis: Insight from Text Mining Technique
CN117574168A (zh) 信息报告的生成方法及其装置
Jeet et al. Twitter Sentiment Analysis and Emotion Detection Using NLTK and TextBlob
CN117592456A (zh) 文本质量检测方法和装置、电子设备及存储介质