KR102523160B1 - 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 - Google Patents
딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 Download PDFInfo
- Publication number
- KR102523160B1 KR102523160B1 KR1020220059733A KR20220059733A KR102523160B1 KR 102523160 B1 KR102523160 B1 KR 102523160B1 KR 1020220059733 A KR1020220059733 A KR 1020220059733A KR 20220059733 A KR20220059733 A KR 20220059733A KR 102523160 B1 KR102523160 B1 KR 102523160B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- similarity
- pairs
- mathematical
- duplicate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title abstract description 4
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 유사도 모델의 학습 과정의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 중복 문서 탐지 과정의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 중복 문서 탐지 방법의 예를 도시한 흐름도이다.
Claims (16)
- 적어도 하나의 프로세서를 포함하는 컴퓨터 장치의 중복 문서 탐지 방법에 있어서,
상기 적어도 하나의 프로세서에 의해, 문서 데이터베이스로부터 동일한 속성을 갖는 복수의 유사 문서쌍을 포함하는 유사 문서쌍 집합 및 랜덤하게 추출된 복수의 비유사 문서쌍을 포함하는 비유사 문서쌍 집합을 추출하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 복수의 유사 문서쌍 각각에 대해 수학적 척도를 이용하여 제1 수학적 유사도를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 복수의 비유사 문서쌍 각각에 대해 수학적 척도를 이용하여 제2 수학적 유사도를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 유사 문서쌍에 대한 수학적 유사도가 수학적 척도에 의해 과소평가된다는 가정에 따라 상기 제1 수학적 유사도를 증가시켜, 상기 복수의 유사 문서쌍 각각에 대한 제1 의미적 유사도를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 비유사 문서쌍에 대한 수학적 유사도가 수학적 척도에 의해 과대평가된다는 가정에 따라 상기 제2 수학적 유사도를 감소시켜, 상기 복수의 비유사 문서쌍 각각에 대한 제2 의미적 유사도를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 복수의 유사 문서쌍, 상기 복수의 비유사 문서쌍, 상기 제1 의미적 유사도 및 상기 제2 의미적 유사도를 이용하여 유사도 모델을 학습시키는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 유사도 모델을 이용하여 중복 문서를 탐지하는 단계
를 포함하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 속성은 문서의 작성자, 문서의 게시 섹션 및 문서의 등록 시간 범위 중 적어도 하나를 포함하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 제1 의미적 유사도를 계산하는 단계는,
상기 제1 수학적 유사도를 제1 비선형 함수에 입력하여 증가시켜 상기 제1 의미적 유사도를 계산하고,
상기 제2 의미적 유사도를 계산하는 단계는,
상기 제2 수학적 유사도를 제2 비선형 함수에 입력하여 감소시켜 상기 제2 의미적 유사도를 계산하고,
상기 제1 비선형 함수 및 상기 제2 비선형 함수는 상기 제1 비선형 함수가 동일한 모든 입력 값에 대해 상기 제2 비선형 함수보다 높은 값을 산출하는 조건을 만족하는 두 개의 비선형 함수인 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 유사도 모델을 학습시키는 단계는,
상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각을 순차적으로 상기 유사도 모델에 입력하여 상기 유사도 모델의 출력값과 입력된 문서쌍에 대응하는 의미적 유사도간의 평균 제곱 오차(Mean Squared Error, MSE)가 최소화되도록 상기 유사도 모델을 학습시키는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 중복 문서를 탐지하는 단계는,
중복을 탐지하고자 하는 문서 집합으로부터 문서쌍들을 추출하는 단계;
상기 추출된 문서쌍들을 상기 유사도 모델에 순차적으로 입력하여 상기 추출된 문서쌍들 각각의 의미적 유사도를 계산하는 단계; 및
상기 계산된 의미적 유사도가 기설정된 임계값 이상인 문서쌍들을 중복 문서들로서 결정하는 단계
를 포함하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제5항에 있어서,
상기 문서쌍들을 추출하는 단계는,
상기 문서 집합의 부분집합들 중 원소의 수가 2인 부분집합들을 문서쌍들로서 추출하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 중복 문서를 탐지하는 단계는,
새로운 문서에 대한 등록 요청에 따라 기 등록된 문서들을 포함하는 문서 집합의 문서들 어느 하나와 상기 새로운 문서를 포함하는 문서쌍을 상기 문서 집합의 문서들 각각에 대해 추출하는 단계;
상기 추출된 문서쌍들을 상기 유사도 모델에 순차적으로 입력하여 상기 추출된 문서쌍들 각각의 의미적 유사도를 계산하는 단계;
상기 계산된 의미적 유사도가 기설정된 제1 임계값 이상인 문서쌍들을 중복 문서들로서 결정하는 단계; 및
상기 중복 문서들로서 결정된 문서쌍들의 수가 기설정된 제2 임계값 이상인 경우, 상기 새로운 문서를 중복 문서로 결정하는 단계
를 포함하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제7항에 있어서,
상기 중복 문서를 탐지하는 단계는,
상기 새로운 문서가 중복 문서로 결정된 경우, 상기 새로운 문서를 등록하는 대신 캡차(Captcha)를 노출하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 제1 수학적 유사도를 계산하는 단계 및 상기 제2 수학적 유사도를 계산하는 단계 중 적어도 하나의 단계는,
상기 수학적 척도로서 코사인 유사도(Cosine Similarity), 유클리드 거리(Euclidean Distance) 및 자카드 유사도(Jaccard Similarity) 중 적어도 하나를 이용하여 수학적 유사도를 계산하는 것을 특징으로 하는 중복 문서 탐지 방법. - 컴퓨터 장치와 결합되어 제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체.
- 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
문서 데이터베이스로부터 동일한 속성을 갖는 복수의 유사 문서쌍을 포함하는 유사 문서쌍 집합 및 랜덤하게 추출된 복수의 비유사 문서쌍을 포함하는 비유사 문서쌍 집합을 추출하고,
상기 복수의 유사 문서쌍 각각에 대해 수학적 척도를 이용하여 제1 수학적 유사도를 계산하고,
상기 복수의 비유사 문서쌍 각각에 대해 수학적 척도를 이용하여 제2 수학적 유사도를 계산하고,
유사 문서쌍에 대한 수학적 유사도가 수학적 척도에 의해 과소평가된다는 가정에 따라 상기 제1 수학적 유사도를 증가시켜, 상기 복수의 유사 문서쌍 각각에 대한 제1 의미적 유사도를 계산하고,
비유사 문서쌍에 대한 수학적 유사도가 수학적 척도에 의해 과대평가된다는 가정에 따라 상기 제2 수학적 유사도를 감소시켜, 상기 복수의 비유사 문서쌍 각각에 대한 제2 의미적 유사도를 계산하고,
상기 복수의 유사 문서쌍, 상기 복수의 비유사 문서쌍, 상기 제1 의미적 유사도 및 상기 제2 의미적 유사도를 이용하여 유사도 모델을 학습시키고,
상기 유사도 모델을 이용하여 중복 문서를 탐지하는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 제1 수학적 유사도를 제1 비선형 함수에 입력하여 증가시켜 상기 제1 의미적 유사도를 계산하고,
상기 제2 수학적 유사도를 제2 비선형 함수에 입력하여 감소시켜 상기 제2 의미적 유사도를 계산하고,
상기 제1 비선형 함수 및 상기 제2 비선형 함수는 상기 제1 비선형 함수가 동일한 모든 입력 값에 대해 상기 제2 비선형 함수보다 높은 값을 산출하는 조건을 만족하는 두 개의 비선형 함수인 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각을 순차적으로 상기 유사도 모델에 입력하여 상기 유사도 모델의 출력값과 입력된 문서쌍에 대응하는 의미적 유사도간의 평균 제곱 오차(Mean Squared Error, MSE)가 최소화되도록 상기 유사도 모델을 학습시키는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
중복을 탐지하고자 하는 문서 집합으로부터 문서쌍들을 추출하고,
상기 추출된 문서쌍들을 상기 유사도 모델에 순차적으로 입력하여 상기 추출된 문서쌍들 각각의 의미적 유사도를 계산하고,
상기 계산된 의미적 유사도가 기설정된 임계값 이상인 문서쌍들을 중복 문서들로서 결정하는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
새로운 문서에 대한 등록 요청에 따라 기 등록된 문서들을 포함하는 문서 집합의 문서들 어느 하나와 상기 새로운 문서를 포함하는 문서쌍을 상기 문서 집합의 문서들 각각에 대해 추출하고,
상기 추출된 문서쌍들을 상기 유사도 모델에 순차적으로 입력하여 상기 추출된 문서쌍들 각각의 의미적 유사도를 계산하고,
상기 계산된 의미적 유사도가 기설정된 제1 임계값 이상인 문서쌍들을 중복 문서들로서 결정하고,
상기 중복 문서들로서 결정된 문서쌍들의 수가 기설정된 제2 임계값 이상인 경우, 상기 새로운 문서를 중복 문서로 결정하는 것
을 특징으로 하는 컴퓨터 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220059733A KR102523160B1 (ko) | 2019-12-11 | 2022-05-16 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190164926A KR102448061B1 (ko) | 2019-12-11 | 2019-12-11 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
KR1020220059733A KR102523160B1 (ko) | 2019-12-11 | 2022-05-16 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190164926A Division KR102448061B1 (ko) | 2019-12-11 | 2019-12-11 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220070181A KR20220070181A (ko) | 2022-05-30 |
KR102523160B1 true KR102523160B1 (ko) | 2023-04-18 |
Family
ID=73834156
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190164926A KR102448061B1 (ko) | 2019-12-11 | 2019-12-11 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
KR1020220059733A KR102523160B1 (ko) | 2019-12-11 | 2022-05-16 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190164926A KR102448061B1 (ko) | 2019-12-11 | 2019-12-11 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11631270B2 (ko) |
EP (1) | EP3835997A1 (ko) |
JP (1) | JP6987209B2 (ko) |
KR (2) | KR102448061B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11895128B2 (en) | 2021-01-15 | 2024-02-06 | Bank Of America Corporation | Artificial intelligence vulnerability collation |
US12113809B2 (en) | 2021-01-15 | 2024-10-08 | Bank Of America Corporation | Artificial intelligence corroboration of vendor outputs |
US11683335B2 (en) * | 2021-01-15 | 2023-06-20 | Bank Of America Corporation | Artificial intelligence vendor similarity collation |
US11757904B2 (en) | 2021-01-15 | 2023-09-12 | Bank Of America Corporation | Artificial intelligence reverse vendor collation |
CN114564935A (zh) * | 2022-02-25 | 2022-05-31 | 中国建设银行股份有限公司 | 基于语义的文档查重方法及装置 |
KR20240092363A (ko) | 2022-12-14 | 2024-06-24 | 아이오아이소프트(주) | 그래프 신경망을 이용한 영업정보 유사도 산출 시스템 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
WO2014206241A1 (zh) | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 文档相似度计算方法、近似重复文档检测方法及装置 |
US20160292062A1 (en) | 2015-03-30 | 2016-10-06 | Infosys Limited | System and method for detection of duplicate bug reports |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198409A (ja) * | 1996-01-19 | 1997-07-31 | Hitachi Ltd | 酷似文書抽出方法 |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US20040064449A1 (en) * | 2002-07-18 | 2004-04-01 | Ripley John R. | Remote scoring and aggregating similarity search engine for use with relational databases |
US7809695B2 (en) | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
JP2006201926A (ja) * | 2005-01-19 | 2006-08-03 | Konica Minolta Holdings Inc | 類似文書検索システム、類似文書検索方法、およびプログラム |
WO2006119578A1 (en) | 2005-05-13 | 2006-11-16 | Curtin University Of Technology | Comparing text based documents |
US20060294101A1 (en) | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
KR20100008466A (ko) | 2008-07-16 | 2010-01-26 | 주식회사 케이티 | 중복 웹페이지 제거 장치 및 방법 |
JP2010256960A (ja) * | 2009-04-21 | 2010-11-11 | Nec Corp | 類似度判定システム、類似度判定方法および類似度判定用プログラム |
US7967731B2 (en) * | 2009-05-29 | 2011-06-28 | Sk Telecom Americas, Inc. | System and method for motivating users to improve their wellness |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US9355171B2 (en) | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
US10083229B2 (en) * | 2009-10-09 | 2018-09-25 | International Business Machines Corporation | System, method, and apparatus for pairing a short document to another short document from a plurality of short documents |
WO2015099810A1 (en) * | 2013-12-29 | 2015-07-02 | Hewlett-Packard Development Company, L.P. | Learning graph |
KR101626247B1 (ko) | 2015-01-06 | 2016-06-01 | 인하대학교 산학협력단 | 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템 |
JP6426074B2 (ja) * | 2015-10-01 | 2018-11-21 | 日本電信電話株式会社 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
KR101687674B1 (ko) | 2015-11-26 | 2016-12-19 | 성신여자대학교 산학협력단 | 유사도를 이용한 데이터 평가 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체 |
US20180068023A1 (en) | 2016-09-07 | 2018-03-08 | Facebook, Inc. | Similarity Search Using Polysemous Codes |
US20180075138A1 (en) | 2016-09-14 | 2018-03-15 | FileFacets Corp. | Electronic document management using classification taxonomy |
US11170177B2 (en) * | 2017-07-28 | 2021-11-09 | Nia Marcia Maria Dowell | Computational linguistic analysis of learners' discourse in computer-mediated group learning environments |
US11233761B1 (en) | 2019-03-21 | 2022-01-25 | Pinterest, Inc. | Determining topic cohesion between posted and linked content |
US11216619B2 (en) * | 2020-04-28 | 2022-01-04 | International Business Machines Corporation | Feature reweighting in text classifier generation using unlabeled data |
-
2019
- 2019-12-11 KR KR1020190164926A patent/KR102448061B1/ko active IP Right Grant
-
2020
- 2020-12-09 JP JP2020204421A patent/JP6987209B2/ja active Active
- 2020-12-10 EP EP20213229.6A patent/EP3835997A1/en active Pending
- 2020-12-11 US US17/119,028 patent/US11631270B2/en active Active
-
2022
- 2022-05-16 KR KR1020220059733A patent/KR102523160B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
WO2014206241A1 (zh) | 2013-06-26 | 2014-12-31 | 华为技术有限公司 | 文档相似度计算方法、近似重复文档检测方法及装置 |
US20160292062A1 (en) | 2015-03-30 | 2016-10-06 | Infosys Limited | System and method for detection of duplicate bug reports |
Non-Patent Citations (3)
Title |
---|
Silva et al. 'Duplicate question detection in stack overflow: A reproducibility study.' 2018 IEEE 25th Intl. Conf. on SANER. IEEE, 2018.* |
Wang et al. "Detecting duplicate questions in stack overflow via deep learning approaches." 2019 26th Asia-Pacific Software Engineering Conference (APSEC). IEEE, 2019. |
정재환 et al. "어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축." 한국어정보학회 학술대회 (2019): 265-271.* |
Also Published As
Publication number | Publication date |
---|---|
KR20210074023A (ko) | 2021-06-21 |
EP3835997A1 (en) | 2021-06-16 |
US20210182551A1 (en) | 2021-06-17 |
KR20220070181A (ko) | 2022-05-30 |
US11631270B2 (en) | 2023-04-18 |
JP2021093163A (ja) | 2021-06-17 |
KR102448061B1 (ko) | 2022-09-27 |
JP6987209B2 (ja) | 2021-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102523160B1 (ko) | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 | |
KR102432600B1 (ko) | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 | |
US20190325084A1 (en) | Generating Personalized Content Summaries for Users | |
US8676807B2 (en) | Identifying location names within document text | |
CN111602147A (zh) | 基于非局部神经网络的机器学习模型 | |
US9251141B1 (en) | Entity identification model training | |
CN112805715A (zh) | 识别实体属性关系 | |
EP3557498A1 (en) | Processing multimodal user input for assistant systems | |
US11463455B1 (en) | Identification and deobfuscation of obfuscated text in digital content | |
CN111552865A (zh) | 用户兴趣画像方法及相关设备 | |
US20160241671A1 (en) | Profile update evaluator | |
KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
KR102209100B1 (ko) | 활동 데이터 분석을 통해 비정상 사용자 그룹을 탐지하는 방법 및 시스템 | |
WO2024006007A1 (en) | Privacy-sensitive neural network training | |
CN117009832A (zh) | 异常命令的检测方法、装置、电子设备及存储介质 | |
Guo et al. | A method of source code authorship attribution based on graph neural network | |
KR102147496B1 (ko) | 유사 댓글의 연속 입력을 차단하기 위한 방법 및 시스템 | |
KR102690029B1 (ko) | 빅데이터 기반 원고의 상업적 출판 여부에 대한 의사결정 정보 및 출판기획전략 정보의 생성 방법, 장치 및 시스템 | |
CN111563276A (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
CN113705213B (zh) | 错别字识别方法、装置、设备及可读存储介质 | |
KR102223741B1 (ko) | 문자열의 무작위 생성 여부 판단 방법, 장치 및 컴퓨터 프로그램 | |
Fang et al. | An Improved Plagiarism Detection Method: Model and Sample |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
PA0107 | Divisional application |
Comment text: Divisional Application of Patent Patent event date: 20220516 Patent event code: PA01071R01D Filing date: 20191211 Application number text: 1020190164926 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220907 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230330 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230413 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230414 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |