WO2021118040A1 - 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 - Google Patents
딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 Download PDFInfo
- Publication number
- WO2021118040A1 WO2021118040A1 PCT/KR2020/014337 KR2020014337W WO2021118040A1 WO 2021118040 A1 WO2021118040 A1 WO 2021118040A1 KR 2020014337 W KR2020014337 W KR 2020014337W WO 2021118040 A1 WO2021118040 A1 WO 2021118040A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- text data
- feature vector
- text
- similarity
- data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (8)
- 필터링된 텍스트 데이터를 수집하는 방법에 있어서,(a) 컴퓨팅 장치가, 제1 텍스트 데이터를 획득하고 이를 텍스트 데이터풀에 기록하는 단계;(b) 상기 컴퓨팅 장치가, 제2 텍스트 데이터를 획득하는 단계;(c) 상기 컴퓨팅 장치가, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하는 단계; 및(d) 상기 컴퓨팅 장치가, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 단계;를 포함하는 방법.
- 제1항에 있어서,상기 텍스트 데이터풀에 기록된 상기 제1 텍스트 데이터가 복수 개이고, 상기 복수 개의 제1 텍스트 데이터가 제1-1 텍스트 데이터 및 제1-2 텍스트 데이터를 포함하고 있다고 할 때,상기 컴퓨팅 장치는, 상기 딥러닝 모델에서의 연산을 통해 상기 제1-1 텍스트 데이터에 대응하는 제1-1 feature vector 및 상기 제1-2 텍스트 데이터에 대응하는 제1-2 feature vector를 산출하고,상기 제1-1 feature vector 및 상기 제2 feature vector의 제1 유사 정도와 상기 제1-2 feature vector 및 상기 제2 feature vector의 제2 유사 정도를 산출하며, 복수의 유사 정도에 기초하여 상기 제1-1 텍스트 데이터 및 상기 제1-2 텍스트 데이터를 정렬하고,상기 정렬된 텍스트 데이터 중에서 상기 유사 정도가 상기 소정 수치보다 높거나 같은 특정 텍스트 데이터 및 상기 제2 텍스트 데이터를 사용자 단말에 전송하여 상기 특정 텍스트 데이터 및 상기 제2 텍스트 데이터가 비교되도록 하고, 상기 사용자 단말로부터 상기 제2 텍스트 데이터가 상기 텍스트 데이터풀에 기록될지 여부를 수신하는 것을 특징으로 하는 방법.
- 제2항에 있어서,상기 유사 정도가 상기 소정 수치보다 높거나 같은 상기 특정 텍스트 데이터가 존재하지 않는 경우, 상기 복수 개의 제1 텍스트 데이터 중에서 상기 제2 텍스트 데이터와 가장 유사하다고 판단되는 제1 텍스트 데이터가 재특정 텍스트 데이터로 설정된 상태에서,상기 재특정 텍스트 데이터의 feature vector와의 유사 정도가 기설정 수치보다 높거나 같은 복수의 소정 feature vector가 존재한다고 할 때,상기 컴퓨팅 장치는, 상기 복수의 소정 feature vector에 대응하는 복수의 소정 텍스트 데이터 및 상기 재특정 이미지 데이터를 상기 사용자 단말에 전송하여 상기 복수의 소정 텍스트 데이터 및 상기 재특정 이미지 데이터 각각이 상기 제2 텍스트 데이터와 비교되도록 하고, 상기 사용자 단말로부터 상기 제2 텍스트 데이터가 상기 텍스트 데이터풀에 기록될지 여부를 수신하는 것을 특징으로 하는 방법.
- 제1항에 있어서,상기 제1 feature vector가 N 차원에 존재하는 제1 지점, 상기 제2 feature vector가 N차원에 존재하는 제2 지점에 해당한다고 할 때,상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도는 상기 제1 지점과 상기 제2 지점 사이의 거리를 나타내는 것을 특징으로 하는 방법.
- 제1항에 있어서,상기 컴퓨팅 장치는, 상기 텍스트 데이터풀에 기록된 복수의 텍스트 데이터에 대응하는 복수의 feature vector 각각의 인접 정도에 기초하여, 상기 복수의 텍스트 데이터를 그룹핑하는 것을 특징으로 하는 방법.
- 제1항에 있어서,상기 (a) 단계 이전에,상기 딥러닝 모델의 연산을 수행하기 위해 적어도 하나의 파라미터가 존재하는 상태에서,제1 트레이닝 텍스트 데이터와 제2 트레이닝 텍스트 데이터의 유사 여부가 제1 비교 데이터라고 할 때,(a1) 상기 컴퓨팅 장치가, 상기 제1 트레이닝 텍스트 데이터 및 상기 제2 트레이닝 텍스트 데이터를 입력 값으로 하여, 상기 딥러닝 모델에서 연산을 수행하고, 상기 제1 트레이닝 텍스트 데이터에 대응하는 제1 트레이닝 feature vector 및 상기 제2 트레이닝 텍스트 데이터에 대응하는 제2 트레이닝 feature vector를 산출하는 단계; 및(a2) 상기 컴퓨팅 장치가, 상기 제1 트레이닝 feature vector 및 상기 제2 트레이닝 feature vector의 유사 정도를 비교하여 제2 비교 데이터를 도출하고, 상기 제1 비교 데이터 및 상기 제2 비교 데이터를 기초로 상기 딥러닝 모델의 적어도 하나의 파라미터를 조절하는 단계;를 포함하는 방법.
- 제1항에 있어서,상기 컴퓨팅 장치가, 크라우드 소싱을 통해 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 획득하는 것을 특징으로 하는 방법.
- 필터링된 텍스트 데이터를 수집하는 장치에 있어서,제1 텍스트 데이터 및 제2 텍스트 데이터를 획득하는 통신부;상기 제1 텍스트 데이터를 텍스트 데이터풀에 기록하고, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하며, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 프로세서;를 포함하는 컴퓨팅 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/771,221 US20220374601A1 (en) | 2019-12-10 | 2020-10-20 | Deep learning-based method for filtering out similar text, and apparatus using same |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0164009 | 2019-12-10 | ||
KR1020190164009A KR102114267B1 (ko) | 2019-12-10 | 2019-12-10 | 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021118040A1 true WO2021118040A1 (ko) | 2021-06-17 |
Family
ID=70913842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2020/014337 WO2021118040A1 (ko) | 2019-12-10 | 2020-10-20 | 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220374601A1 (ko) |
KR (1) | KR102114267B1 (ko) |
WO (1) | WO2021118040A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102114223B1 (ko) * | 2019-12-10 | 2020-05-22 | 셀렉트스타 주식회사 | 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치 |
CN112216359B (zh) * | 2020-09-29 | 2024-03-26 | 百度国际科技(深圳)有限公司 | 医疗数据校验方法、装置及电子设备 |
JP2022106147A (ja) * | 2021-01-06 | 2022-07-19 | 富士通株式会社 | 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090220166A1 (en) * | 2008-02-28 | 2009-09-03 | Yahoo! Inc. | Filter for blocking image-based spam |
KR20160085004A (ko) * | 2015-01-07 | 2016-07-15 | 한화테크윈 주식회사 | 중복 이미지 파일 검색 방법 및 장치 |
KR20190125428A (ko) * | 2017-07-21 | 2019-11-06 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 얼굴 이미지 중복 제거 방법 및 장치, 전자 기기, 저장 매체, 프로그램 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101652436B1 (ko) * | 2010-08-17 | 2016-08-30 | 에스케이텔레콤 주식회사 | 분산파일 시스템에서의 중복 제거 장치 및 방법 |
US10102255B2 (en) * | 2016-09-08 | 2018-10-16 | Facebook, Inc. | Categorizing objects for queries on online social networks |
KR102011667B1 (ko) * | 2016-11-29 | 2019-08-20 | (주)아크릴 | 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 |
CN107133202A (zh) * | 2017-06-01 | 2017-09-05 | 北京百度网讯科技有限公司 | 基于人工智能的文本校验方法和装置 |
-
2019
- 2019-12-10 KR KR1020190164009A patent/KR102114267B1/ko active IP Right Grant
-
2020
- 2020-10-20 WO PCT/KR2020/014337 patent/WO2021118040A1/ko active Application Filing
- 2020-10-20 US US17/771,221 patent/US20220374601A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090220166A1 (en) * | 2008-02-28 | 2009-09-03 | Yahoo! Inc. | Filter for blocking image-based spam |
KR20160085004A (ko) * | 2015-01-07 | 2016-07-15 | 한화테크윈 주식회사 | 중복 이미지 파일 검색 방법 및 장치 |
KR20190125428A (ko) * | 2017-07-21 | 2019-11-06 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 얼굴 이미지 중복 제거 방법 및 장치, 전자 기기, 저장 매체, 프로그램 |
Non-Patent Citations (2)
Title |
---|
LEE, SOON-HAENG ET AL.: "A Survey on Detecting Duplicate Documents in World Wide Web Environment", SIGDB, vol. 25, no. 1, April 2009 (2009-04-01), pages 1 - 17 * |
LIM GEUN-YOUNG, CHO YOUNG-BOK: "The Sentence Similarity Measure Using Deep-Learning and Char2Vec", JOURNAL OF THE KOREA INSTITUTE OF INFORMATION AND COMMUNICATION ENGINEERING, vol. 22, no. 10, 1 October 2018 (2018-10-01), pages 1300 - 1306, XP055819855, ISSN: 1226-6981, DOI: 10.6109/jkiice.2018.22.10.1300 * |
Also Published As
Publication number | Publication date |
---|---|
KR102114267B1 (ko) | 2020-05-22 |
US20220374601A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021118039A1 (ko) | 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치 | |
WO2021118040A1 (ko) | 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 | |
WO2021118041A1 (ko) | 작업 난이도에 따라 레이블링 작업을 분배하는 방법 및 그를 이용한 장치 | |
WO2020111754A2 (ko) | 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템 | |
WO2020045714A1 (ko) | 콘텐츠 인식 방법 및 시스템 | |
WO2021125619A1 (ko) | 딥러닝 모델을 이용하여 바운딩 박스에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치 | |
WO2016013810A1 (en) | Operating method and device for disaster information | |
WO2017104919A1 (en) | Event-based image management using clustering | |
WO2017188535A1 (ko) | 실시간성 이벤트를 탐지하는 방법 및 이를 이용한 서버 | |
WO2018080228A1 (ko) | 번역을 위한 서버 및 번역 방법 | |
WO2021261883A1 (ko) | 무선 공유기를 이용한 몰래 카메라 탐지 방법 및 그 시스템 | |
WO2015133856A1 (ko) | 정답 키워드 제공 방법 및 장치 | |
WO2021040283A1 (ko) | 무선 ap 접속 정보에 기초하여 근태 관리를 수행할 수 있는 근태 관리 시스템 서버 및 그 동작 방법 | |
WO2019107731A1 (ko) | 실내 위치 측정 장치 및 방법 | |
WO2020067615A1 (ko) | 익명화 성능을 향상시키기 위한 영상 익명화 장치의 제어 방법 및 이를 위한 장치 | |
WO2020085558A1 (ko) | 고속분석 영상처리장치 및 그 장치의 구동방법 | |
WO2013154252A1 (ko) | 비결정적 유한 오토마타의 비결정성을 선택적으로 제거하기 위한 방법, 서버, 단말 장치 및 컴퓨터 판독 가능한 기록 매체 | |
WO2020171622A1 (en) | A method and system for managing operations of applications on an electronic device | |
WO2016186326A1 (ko) | 검색어 리스트 제공 장치 및 이를 이용한 방법 | |
WO2023022406A1 (ko) | 학습 실력 평가 방법, 학습 실력 평가 장치 및 학습 실력 평가 시스템 | |
WO2023033444A1 (ko) | 이슈 기반 뉴스 정보 제공을 위한 서비스 제공 장치 및 방법 | |
WO2022097891A1 (ko) | 동일 구조의 데이터를 추출하는 방법 및 그를 이용한 장치 | |
WO2019098584A1 (ko) | 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법 | |
WO2022231362A1 (ko) | 상용 드론에 대한 무선 통신 성능을 평가하는 평가 시스템 장치 및 그 동작 방법 | |
WO2015186875A1 (ko) | 대중교통 수단 안내를 위한 서비스 제공 시스템 및 방법, 그리고 이를 위한 장치 및 컴퓨터 프로그램이 기록된 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20900366 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20900366 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20900366 Country of ref document: EP Kind code of ref document: A1 |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 13.12.2022) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20900366 Country of ref document: EP Kind code of ref document: A1 |