KR102114267B1 - 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 - Google Patents

딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 Download PDF

Info

Publication number
KR102114267B1
KR102114267B1 KR1020190164009A KR20190164009A KR102114267B1 KR 102114267 B1 KR102114267 B1 KR 102114267B1 KR 1020190164009 A KR1020190164009 A KR 1020190164009A KR 20190164009 A KR20190164009 A KR 20190164009A KR 102114267 B1 KR102114267 B1 KR 102114267B1
Authority
KR
South Korea
Prior art keywords
text data
feature vector
similarity
text
degree
Prior art date
Application number
KR1020190164009A
Other languages
English (en)
Inventor
김세엽
Original Assignee
셀렉트스타 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 셀렉트스타 주식회사 filed Critical 셀렉트스타 주식회사
Priority to KR1020190164009A priority Critical patent/KR102114267B1/ko
Application granted granted Critical
Publication of KR102114267B1 publication Critical patent/KR102114267B1/ko
Priority to US17/771,221 priority patent/US20220374601A1/en
Priority to PCT/KR2020/014337 priority patent/WO2021118040A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

본 발명에 따르면, 필터링된 텍스트 데이터를 수집하는 방법에 있어서, 컴퓨팅 장치가, 제1 텍스트 데이터를 획득하고 이를 텍스트 데이터풀에 기록하는 단계; 상기 컴퓨팅 장치가, 제2 텍스트 데이터를 획득하는 단계; 상기 컴퓨팅 장치가, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 단계를 포함하는 방법을 제시한다.

Description

딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치{METHOD FOR FILTERING A SIMILAR TEXT BASED ON DEEP LEARNING AND APPARATUS USING THE SAME}
본 발명은 필터링된 텍스트 데이터를 수집하는 방법에 있어서, 컴퓨팅 장치가, 제1 텍스트 데이터를 획득하고 이를 텍스트 데이터풀에 기록하는 단계; 상기 컴퓨팅 장치가, 제2 텍스트 데이터를 획득하는 단계; 상기 컴퓨팅 장치가, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 단계를 포함하는 방법에 관한 것이다.
현대 시대에는 정보가 무한대로 쏟아지고 있다. 이중에서 필요한 정보만을 골라서 수집하기는 쉽지 않다. 더욱이, 다양한 정보(ex 이미지, 텍스트)를 수집하는 경우, 유사한 정보에 대해서는 최대한 걸러서 수집해야 하지만 이를 일일이 대조하면서 필터링하는 것은 쉽지 않았다.
이에 본 발명자는 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치를 제안하고자 한다.
본 발명은 상술한 문제점을 모두 해결하는 것을 목적으로 한다.
본 발명은 다양한 정보(ex 이미지, 텍스트)를 수집하는데 있어서 유사한 정보는 필터링하여 수집하는 것을 다른 목적으로 한다.
또한, 본 발명은 딥러닝 모델을 이용하여 정보간에 유사도를 판단함으로써 보다 효율적으로 유사 정보를 필터링하는 것을 또 다른 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 필터링된 텍스트 데이터를 수집하는 방법에 있어서, 컴퓨팅 장치가, 제1 텍스트 데이터를 획득하고 이를 텍스트 데이터풀에 기록하는 단계; 상기 컴퓨팅 장치가, 제2 텍스트 데이터를 획득하는 단계; 상기 컴퓨팅 장치가, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하는 단계; 및 상기 컴퓨팅 장치가, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 단계를 포함하는 방법이 제공된다.
또한, 본 발명의 다른 태양에 따르면, 필터링된 텍스트 데이터를 수집하는 장치에 있어서, 제1 텍스트 데이터 및 제2 텍스트 데이터를 획득하는 통신부; 상기 제1 텍스트 데이터를 텍스트 데이터풀에 기록하고, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하며, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 프로세서를 포함하는 컴퓨팅 장치가 제공된다.
본 발명에 의하면, 다음과 같은 효과가 있다.
본 발명은 다양한 정보(ex 이미지, 텍스트)를 수집하는데 있어서 유사한 정보는 필터링하여 수집하는 효과가 있다.
또한, 본 발명은 딥러닝 모델을 이용하여 정보간에 유사도를 판단함으로써 보다 효율적으로 유사 정보를 필터링하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따라 컴퓨팅 장치의 개략적인 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따라 신규 텍스트 데이터를 텍스트 데이터풀에 기록하기까지의 과정을 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따라 텍스트 데이터를 입력값으로 하여 딥러닝 모델에서 연산을 수행하는 모습을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따라 텍스트 데이터를 유사도 순으로 정렬하고 필터링 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 어느 하나의 feature vector와 근접한 소정 feature vector를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따라 신규 텍스트를 기존 텍스트의 그룹 중 어느 하나에 포함시키는 모습을 나타낸 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따라 컴퓨팅 장치의 개략적인 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 컴퓨팅 장치(100)는 통신부(110), 프로세서(120)를 포함하고, 경우에 따라 도 1과는 달리 데이터베이스(130)를 포함하지 않을 수도 있다.
우선, 컴퓨팅 장치(100)의 통신부(110)는 다양한 통신 기술로 구현될 수 있다. 즉, 와이파이(WIFI), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), HSPA(High Speed Packet Access), 모바일 와이맥스(Mobile WiMAX), 와이브로(WiBro), LTE(Long Term Evolution), 5G, 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association), NFC(Near Field Communication), 지그비(Zigbee), 무선랜 기술 등이 적용될 수 있다. 또한, 인터넷과 연결되어 서비스를 제공하는 경우 인터넷에서 정보전송을 위한 표준 프로토콜인 TCP/IP를 따를 수 있다.
다음으로, 본원 발명의 데이터베이스(130)는 획득한 데이터(ex 이미지, 텍스트) 및 데이터풀을 저장할 수 있다. 참고로, 외부 데이터베이스를 이용하는 경우, 컴퓨팅 장치(100)는 통신부(110)를 통해 상기 외부 데이터베이스에 접근할 수 있을 것이다.
또한, 컴퓨팅 장치(100)는 통신부(110)를 통해 사용자의 단말(200)과 통신을 수행할 수 있다. 여기서, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기, 스마트 리모컨, 각종 IOT 메인기기 등과 같이 통신을 수행하면서 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자의 단말(200)에 해당할 수 있다.
한편, 상기 프로세서(120)에 대해서는 뒤에서 상세한 설명을 통하여 자세히 알아보기로 한다.
우선, 본 발명의 컴퓨팅 장치(100)는 다양한 텍스트 데이터를 수집하고자 하며, 유사한 텍스트 데이터는 필터링을 통해 걸러내는 프로세스를 수행한다. 이하에서는, 상기 프로세스에 대해서 설명하도록 하겠다.
도 2는 본 발명의 일 실시예에 따라 신규 텍스트 데이터를 텍스트 데이터풀에 기록하기까지의 과정을 나타낸 도면이다.
컴퓨팅 장치(100)의 프로세서(120)는 제1 텍스트 데이터를 획득하고, 이를 텍스트 데이터풀에 기록(S210)할 수 있다. 여기서, 상기 데이터풀은 획득한 텍스트 데이터들의 집합체이며, 데이터베이스(130)에 저장될 수도 있다. 또한, 상기 데이터풀에는 다양한 텍스트 데이터들만이 기록되는 것을 고려하며, 유사한 텍스트 데이터에 대해서는 후술하는 프로세스 등을 통해 필터링할 수 있을 것이다.
상기 제1 텍스트 데이터를 획득한 후, 컴퓨팅 장치(100)의 프로세서(120)는 제2 텍스트 데이터를 획득(S220)할 수 있다. 여기서, 제1 텍스트 데이터는 텍스트 데이터풀에 기록된 기존 데이터에 해당하고, 제2 텍스트 데이터는 신규 데이터에 해당한다고 볼 수 있다.
본 발명의 컴퓨팅 장치(100)에서 상기 제1 텍스트 데이터 또는 상기 제2 텍스트 데이터를 획득하는 방법은 크라우드 소싱 등의 방법이 존재할 수 있다.
크라우드 소싱은 대중(crowd)와 아웃소싱(outsourcing)의 합성어로, 기업 활동 일부 과정에 대중을 참여시키는 것을 의미한다. 본 발명에서는 데이터를 수집함에 있어서 대중을 참여시키고, 소수의 인원으로는 수집하기 힘든 다양한 데이터를 획득할 수 있을 것이다.
도 3은 본 발명의 일실시예에 따라 텍스트 데이터를 입력값으로 하여 딥러닝 모델에서 연산을 수행하는 모습을 나타낸 도면이다.
프로세서(120)는 제1 텍스트 데이터 및 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행할 수 있다. 상기 딥러닝 모델은 경우에 따라 콘볼루션 레이어(convolution layer)를 포함할 수도 있다.
여기서, 콘볼루션 레이어는 복수의 레이어를 포함하고 있으며, 텍스트 데이터를 복수의 레이어 각각에 통과시키면서 연산함으로써 불필요한 부분을 걸러내고 복잡도를 낮출 수 있을 것이다.
제1 텍스트 데이터가 입력 값으로 상기 딥러닝 모델에서 연산이 수행되면 제1 feature vector가 산출될 수 있고, 제2 텍스트 데이터가 입력 값으로 딥러닝 모델에서 연산이 수행되면 제2 feature vector가 산출(S230)될 수 있다.
즉, 프로세서(120)는 제1 텍스트 데이터를 복수의 콘볼루션 레이어에 통과시키면서 순차적으로 연산시키고 제1 feature vector를 산출하고, 제2 텍스트 데이터를 복수의 콘볼루션 레이어에 통과시키면서 순차적으로 연산시키고 제2 feature vector를 산출할 수 있다.
참고로, 상기 제1 feature vector는 N차원에 존재하는 제1 지점, 제2 feature vector는 N차원에 존재하는 제2 지점에 해당할 수 있다. 따라서, 상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도는 상기 제1 지점과 상기 제2 지점 사이의 거리를 측정함으로써 확인할 수 있다.
여기서, N 차원은 feature vector의 값에 따라 결정될 수 있으며, feature vector가 (x1, y1, z1)이면 3차원에 해당하고, feature vector가 (x1, y1, z1, r1)이면 4차원에 해당할 것이다. 따라서, feature vector는 각 차원에서의 어느 한 지점의 좌표에 해당할 수 있다.
설명을 돕고자 도 3과 함께 예를 들면, 날씨 어떤지 알려줘 문구(1번 문구)가 딥러닝 모델에서 연산 수행되면, x1, y1, z1이라는 feature vector가 생성될 수 있고, 마 날씨 어떠나 오늘 문구(2번 문구)가 딥러닝 모델에서 연산 수행되면, x3, y3, z3라는 feature vector가 생성될 수 있으며, 날씨가 어떤지 알려줄래요? 문구(3번 문구)가 딥러닝 모델에서 연산 수행되면, x2, y2, z2라는 feature vector가 생성될 수 있다.
여기서, 상기 feature vector는 3차원에 존재하는 하나의 지점에 해당할 수 있다. 도 3의 문구로부터 연산된 각 feature vector를 살펴보면, x1, y1, z1과 x3, y3, z3 사이의 거리가 가까운 것을 확인할 수 있다.
상기 x1, y1, z1는 날씨 어떤지 알려줘 문구(1번 문구)로부터 연산된 feature vector이고, 상기 x3, y3, z3는 날씨가 어떤지 알려 줄래요? 문구(3번 문구)로부터 연산된 feature vector이다.
즉, 두 텍스트 데이터는 존댓말 유무에 차이가 있을 뿐 단어 배치 등은 유사한 형태를 가지고 있으며, 결국 위 두 feature vector 사이의 거리 역시 다른 feature vector보다 가까운 것을 확인할 수 있다.
다음으로, 프로세서(120)는 제1 feature vector 및 제2 feature vector의 유사 정도를 비교하고, 상기 유사 정도가 소정 수치보다 아래인 경우 제2 텍스트 데이터를 텍스트 데이터풀에 기록(S240)할 수 있다.
상기 유사 정도는 전술한 바와 같이, 제1 feature vector가 나타내는 지점 및 제2 feature vector가 나타내는 지점 사이의 거리를 측정함으로써 확인할 수 있고, 상기 소정 수치는 설정에 따라 달라질 수 있다.
다시 말하면, 텍스트 데이터풀에 이미 기록된 제1 텍스트 데이터(기존 텍스트)에 대응하는 제1 feature vector 및 제2 텍스트 데이터(신규 텍스트)에 대응하는 제2 feature vector 사이의 거리에 따라, 프로세서(120)는 제2 텍스트 데이터(신규 텍스트)를 텍스트 데이터풀에 기록할지 여부를 결정할 수 있다.
가령, 제1 feature vector 및 제2 feature vector 사이의 거리가 기설정된 수치보다 길다면, 유사 정도는 소정 수치보다 아래이고, 상기 제1 텍스트 데이터와 제2 텍스트 데이터는 유사하지 않다고 판단될 수 있다.
따라서, 신규 텍스트인 제2 텍스트 데이터는 기존의 데이터와 상이하므로 다양한 텍스트 데이터를 수집하고자 하는 프로세서(120)는 상기 제2 텍스트 데이터를 텍스트 데이터풀에 기록할 수 있는 것이다.
반대로, 제1 feature vector 및 제2 feature vector 사이의 거리가 기설정된 수치보다 짧거나 같다면, 유사 정도는 소정 수치보다 크거나 같고, 상기 제1 텍스트 데이터와 제2 텍스트 데이터는 유사하다고 판단될 수 있다.
따라서, 신규 텍스트인 제2 텍스트 데이터는 기존의 데이터와 동일/유사하므로 다양한 텍스트 데이터를 수집하고자 하는 프로세서(120)는 상기 제2 텍스트 데이터를 텍스트 데이터풀에 기록할 수 없는 것이다. 즉, 제2 텍스트 데이터는 필터링될 수 있는 것이다.
한편, 프로세서(120)는 텍스트 데이터풀에 기록된 복수의 텍스트 데이터에 대응하는 복수의 feature vector 각각의 인접 정도에 기초하여 복수의 텍스트 데이터를 그룹핑할 수도 있다.
설명을 돕기 위해, 제1 feature vector의 지점과 제2 feature vector의 지점 사이의 거리가 일정 수치 이하로서 근접하고, 다른 제3 feature vector의 지점과 제4 feature vector의 지점 사이의 거리가 일정 수치 이하로서 근접하다고 가정할 수 있다.
또한, 상기 제1, 2 feature vector 그룹 지점과 제3, 4 feature vector 그룹 지점 사이의 거리는 일정 수치보다 멀리 떨어져 있다고 가정할 수 있다.
위와 같은 경우, 프로세서(120)는 제1 feature vector에 대응하는 제1 텍스트 데이터와 제2 feature vector에 대응하는 제2 텍스트 데이터를 하나의 제1 그룹으로 판단하고, 제3 feature vector에 대응하는 제3 텍스트 데이터와 제4 feature vector에 대응하는 제4 텍스트 데이터를 하나의 제2 그룹으로 판단하여 각각 그룹핑할 수 있다.
실제로, 상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터는 서로 유사한 텍스트(ex 취미 관련 질문 등)를 가지고, 상기 제3 텍스트 데이터와 상기 제4 텍스트 데이터가 서로 유사한 텍스트(ex 감정 관련 질문 등)를 가질 수 있을 것이다.
기존 데이터(제1, 2, 3, 4 텍스트 데이터 등)가 텍스트 데이터풀에 기록된 상태에서, 신규 텍스트 데이터(제5 텍스트 데이터)를 획득하고 신규 텍스트 데이터의 feature vector가 제2 그룹에 해당한다면, 상기 제5 텍스트 데이터 역시 '감정 관련 질문'을 가진다고 고려할 수 있다.
도 4는 본 발명의 일 실시예에 따라 텍스트 데이터를 유사도 순으로 정렬하고 필터링 과정을 나타낸 도면이다.
텍스트 데이터풀(기존 수집 텍스트)에 기록된 제1 텍스트 데이터가 복수 개이고, 상기 복수 개의 제1 텍스트 데이터가 제1-1 텍스트 데이터 및 제1-2 텍스트 데이터를 포함한다고 상정할 수 있다.
프로세서(120)는 딥러닝 모델에서의 연산을 통해 제1-1 텍스트 데이터에 대응하는 제1-1 feature vector를 산출하고, 제1-2 텍스트 데이터에 대응하는 제1-2 feature vector를 산출할 수 있다.
또한, 프로세서(120)는 제1-1 feature vector 및 제2 feature vector의 제1 유사 정도와 제1-2 feature vector 및 제2 feature vector의 제2 유사 정도를 산출하며, 복수의 유사 정도에 기초하여 제1-1 텍스트 데이터 및 제1-2 텍스트 데이터를 정렬할 수 있다.
구체적으로, 제1-1 feature vector와 제2 feature vector 사이의 거리와 제1-2 feature vector와 제2 feature vector 사이의 거리를 측정하고, 가까운 거리순으로 제1-1 텍스트 데이터 및 제1-2 텍스트 데이터를 정렬할 수 있는 것이다.
상기 정렬된 텍스트 데이터 중에서 유사 정도가 소정 수치보다 높거나 같은 특정 텍스트 데이터(제1-1 텍스트 데이터 또는 제1-2 텍스트 데이터) 및 제2 텍스트 데이터를 사용자 단말(200)에 전송하여 특정 텍스트 데이터 및 제2 텍스트 데이터가 비교되도록 할 수 있다.
구체적으로, 프로세서(120)는 제2 텍스트 데이터(신규 텍스트 데이터)와 유사한 텍스트 데이터(특정 텍스트 데이터)를 사용자 단말(200)에 전송하여, 사용자로 하여금 특정 텍스트 데이터와 제2 텍스트 데이터가 유사한지 여부를 다시 확인하도록 할 수도 있고, 사용자 단말(200)내에서 텍스트 유사 판단 프로그램에 따라 특정 텍스트 데이터와 제2 텍스트 데이터가 유사한지 여부를 다시 확인할 수도 있다.
참고로, 위에서는 특정 텍스트 데이터를 제1-1 텍스트 데이터 또는 제1-2 텍스트 데이터로 하나의 텍스트 데이터로 한정 서술하였으나, 상기 특정 텍스트 데이터는 여러 개에 해당할 수도 있다. 이는 복수 개의 기존 텍스트 데이터(제1 텍스트 데이터) 중에서 유사 정도가 소정 수치보다 높거나 같은 텍스트 데이터가 여러 개일 수 있기 때문이다.
1차적으로 딥러닝 모델에 따라 유사 텍스트인지 여부를 측정하고 2차적으로 사용자 단말(200)에서 유사 텍스트인지 여부를 다시 측정할 수 있다. 이는, 많은 텍스트를 일일이 유사한지 여부를 판단할 수 없으므로 우선 딥러닝 모델에 따라 1차적으로 유사 여부를 판단하고, 특정된 텍스트에 대해서 2차적으로 다시 유사 여부를 판단하는 것이다.
또한, 프로세서(120)는 상기 2차적으로 측정된 유사 텍스트인지 여부에 따라 사용자 단말(200)로부터 제2 텍스트 데이터가 텍스트 데이터풀에 기록될지 여부를 수신할 수 있다.
구체적으로, 제2 텍스트 데이터와 특정 텍스트 데이터가 유사 텍스트에 해당한다고 판단된 경우, 프로세서(120)는 상기 제2 텍스트 데이터를 텍스트 데이터풀에 기록하지 않을 것이다.
반면, 제2 텍스트 데이터와 특정 텍스트 데이터가 유사 텍스트에 해당하지 않는다고 판단된 경우, 프로세서(120)는 상기 제2 텍스트 데이터를 텍스트 데이터풀에 기록하여 기존 텍스트 데이터에 포함시킬 것이다.
상기 프로세스는 도 4에서 확인할 수 있으며, 딥러닝 모델을 통해 기존 텍스트 3개가 유사도 순으로 정렬되며, 신규 텍스트(상단 텍스트)와 정렬된 기존 텍스트가 비교될 수 있다.
이때, 기존 텍스트는 신규 텍스트와의 유사도 순으로 정렬되어 있고, 그중 첫번째 텍스트의 유사 정도가 소정 수치보다 높기 때문에 첫번째 텍스트가 신규 텍스트와 유사하다고 판단되고, 사용자 단말(200)에 전송될 수 있는 것이다.
도 5는 본 발명의 일 실시예에 따라 어느 하나의 feature vector와 근접한 소정 feature vector를 나타낸 도면이다.
도 4와 함께 복수의 텍스트 데이터 중에서 신규 텍스트 데이터와 유사 정도가 소정 수치보다 높거나 같은 특정 텍스트 데이터를 사용자 단말(200)에 전송하는 프로세스를 전술하였다.
도 5에서는 이와는 달리, 상기 유사 정도가 상기 소정 수치보다 높거나 같은 특정 텍스트 데이터가 존재하지 않는 경우를 상정하고 있다.
또한, 복수 개의 제1 텍스트 데이터(기존 텍스트 데이터) 중에서 제2 텍스트 데이터(신규 텍스트 데이터)와 가장 유사하다고 판단되는 제1 텍스트 데이터가 재특정 텍스트 데이터로 설정된다고 상정할 수 있다.
즉, 유사 정도가 소정 수치보다 높은 특정 텍스트 데이터는 존재하지 않지만, 기존 텍스트 데이터 중에서 신규 텍스트 데이터와 가장 유사하다고 판단되는 기존 텍스트 데이터를 재특정 텍스트 데이터로 설정하는 것이다.
또한, 재특정 텍스트 데이터의 feature vector와의 유사 정도가 기설정 수치보다 높거나 같은 복수의 소정 feature vector가 존재한다고 가정할 수 있다.
이에 대해서 도 5와 함께 설명하면, 제2 텍스트 데이터(신규 텍스트 데이터)의 feature vector가 p점에 해당하고, 상기 p점으로부터 인접한 거리(d 이내)에 위치하는 feature vector는 없는 것을 확인할 수 있다. 즉, 신규 텍스트 데이터와 유사 정도가 소정 수치보다 높거나 같은 특정 텍스트 데이터가 존재하지 않는 것을 확인할 수 있다.
이때, p점과 가장 가까운 거리(d')에 위치하는 기존 텍스트 데이터로 x2, y2, z2가 존재하며, 이를 재특정 텍스트 데이터로 설정할 수 있다.
또한, 도 5를 살펴보면, 상기 재특정 텍스트 데이터(x2, y2, z2의 feature vector)와 유사 정도가 기설정 수치보다 높거나 같은 복수의 소정 텍스트 데이터가 존재하는 것을 확인할 수 있다. 구체적으로, x2, y2, z2의 feature vector로부터 기설정된 거리(d")이내에 위치하는 (x1, y1, z1), (x4, y4, z4)의 feature vector가 존재하기 때문이다.
결국, (x2, y2, z2)는 재특정 텍스트 데이터에 해당하고, (x1, y1, z1), (x4, y4, z4)는 복수의 소정 텍스트 데이터에 해당할 수 있는 것이다.
비록, 신규 텍스트 데이터와 소정 수치 이상으로 유사(1차 유사 판단)한 기존 텍스트 데이터는 존재하지 않지만, 프로세서(120)는 상기 재특정 텍스트 데이터 및 복수의 소정 텍스트 데이터를 사용자 단말(200)에 전송하여 2차적 유사 판단을 받도록 하는 프로세스를 수행할 수 있다.
즉, 1차적으로는 텍스트 데이터풀에서 제2 텍스트 데이터와 유사한 텍스트 데이터는 발견되지 않았으나, 2차적으로 제2 텍스트 데이터를 상기 재특정 텍스트 데이터 및 복수의 소정 텍스트와 비교하여 유사 판단을 다시 수행할 수 있는 것이다.
결국, 프로세서(120)는 사용자 단말(200)에서 상기 복수의 소정 텍스트 데이터 및 재특정 텍스트 데이터 각각이 제2 텍스트 데이터(신규 텍스트 데이터)와 비교되도록 하고, 상기 사용자 단말(200)로부터 제2 텍스트 데이터가 텍스트 데이터풀에 기록될지 여부를 수신할 수 있다.
사용자 단말(200)에서는 사용자가 직접 상기 복수의 소정 텍스트 데이터 및 재특정 이미지 데이터 각각과 제2 텍스트 데이터를 비교할 수도 있고, 설치된 텍스트 유사 판단 프로그램에 따라 상기 복수의 소정 텍스트 데이터 및 재특정 이미지 데이터 각각과 제2 텍스트 데이터를 비교할 수도 있다.
상기 텍스트 데이터 중 어느 하나의 텍스트 데이터라도 상기 제2 텍스트 데이터와 유사하다고 판단된다면, 프로세서(120)는 사용자 단말(200)로부터 제2 텍스트 데이터는 텍스트 데이터풀에 기록될 수 없다는 메시지를 수신할 수 있을 것이다.
반대로, 복수의 소정 텍스트 데이터 및 재특정 텍스트 데이터 모두가 제2 텍스트 데이터가 유사하지 않다고 판단된 경우, 프로세서(120)는 사용자 단말(200)로부터 제2 텍스트 데이터가 텍스트 데이터풀에 기록될 수 있다는 메시지를 수신할 수 있을 것이다.
한편, 본 발명에서 서술된 딥러닝 모델은 자기학습을 통해 지속적으로 유사 여부 판단의 정확성을 높일 수 있다. 이 경우 상기 자기학습은 딥러닝 모델의 연산을 수행하는 적어도 하나의 파라미터를 조절함으로써 이루어질 수 있다.
구체적으로, A, B라는 기존 텍스트 데이터가 텍스트 데이터풀에 기록되어 있다고 가정하고, a라는 신규 텍스트 데이터를 획득하였다고 가정하며, 상기 A와 a는 동일/유사 텍스트라고 가정할 수 있다.
이때, 프로세서(120)는 A, B, a 텍스트 데이터 각각에 대해 딥러닝 모델을 통해 feature vector를 산출할 수 있고, feature vector 사이의 거리를 계산하여 A와 a 텍스트 데이터의 유사 여부, B와 a 텍스트 데이터의 유사 여부를 판단할 수 있다.
상기 feature vector 사이의 거리 계산 결과, A 텍스트에 해당하는 feature vector와 a 텍스트에 해당하는 feature vector 사이의 거리가 소정 수치 이상으로 확인 (A 텍스트와 a 텍스트가 유사하지 않다고 확인)된 경우, 프로세서(120)는 딥러닝 모델의 파라미터값을 조정할 수 있고, 상기 조정된 값을 가지는 딥러닝 모델을 통해 A 텍스트에 해당하는 feature vector와 a 텍스트에 해당하는 feature vector 사이의 거리가 소정 수치보다 아래에 해당하도록 할 수 있다.
또한, 상기 feature vector 사이의 거리 계산 결과, B 텍스트에 해당하는 feature vector와 a 텍스트에 해당하는 feature vector 사이의 거리가 소정 수치 이하로 확인(B 텍스트와 a 텍스트가 유사하다고 확인)된 경우, 프로세서(120)는 딥러닝 모델의 파라미터값을 조정할 수 있고, 상기 조정된 값을 가지는 딥러닝 모델을 통해 B 텍스트에 해당하는 feature vector와 a 텍스트에 해당하는 feature vector 사이의 거리가 소정 수치보다 크도록 할 수 있다.
상기 자기학습 프로세스를 다시 설명하면 아래와 같다.
우선, 트레이닝(학습)을 위한 데이터로서, 제1 트레이닝 텍스트 데이터와 제2 트레이닝 텍스트 데이터를 획득하고, 상기 제1 트레이닝 텍스트 데이터와 제2 트레이닝 텍스트 데이터의 유사 여부가 제1 비교 데이터라고 가정할 수 있다.
상기 제1 비교 데이터는 상기 두개의 텍스트 데이터가 '유사하다' '비유사하다' 등의 유사 여부를 나타낼 수도 있다.
참고로, 상기 제1 텍스트 데이터는 사실이라고 가정된 데이터(ground truth)를 의미하는 것으로 본 발명의 프로세스에서 비교 대상의 기준이 되는 데이터에 해당할 수 있다.
프로세서(120)는 제1 트레이닝 텍스트 데이터 및 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 제1 트레이닝 텍스트 데이터에 대응하는 제1 트레이닝 feature vector 및 제2 트레이닝 텍스트 데이터에 대응하는 제2 트레이닝 feature vector를 산출할 수 있다.
또한, 프로세서(120)는 제1 트레이닝 feature vector 및 제2 트레이닝 feature vector의 유사 정도를 비교하여 제2 비교 데이터를 도출할 수 있다. 여기서, 상기 제2 비교 데이터는 제1 트레이닝 feature vector의 지점 및 제2 트레이닝 feature vector의 지점 사이의 거리를 기초로 산출될 수 있으며, '유사하다' '비유사하다' 등의 유사 여부를 나타낼 수도 있고, 유사 정도를 나타내는 확률 값(75%)에 해당할 수도 있다.
프로세서(120)는 제1 비교 데이터 및 제2 비교 데이터를 기초로 딥러닝 모델의 적어도 하나의 파라미터를 조절할 수 있다.
예를 들어, 제1 비교 데이터의 값이 '유사하다'인 상태에서, 제2 비교 데이터의 값이 '유사하다'로 판단되면 파라미터를 조절할 필요가 없을 수 있지만, '비유사하다'로 판단되면 제2 비교 데이터의 값이 '유사하다'로 산출되도록 파라미터를 조절할 수 있다.
또한, 제2 비교 데이터의 값이 40% 확률로 유사하다고 나타낸다면, 프로세서(120)는 상기 확률 값이 높게 산출되도록 파라미터를 조절할 수 있다.
도 6은 본 발명의 일 실시예에 따라 신규 텍스트를 기존 텍스트의 그룹 중 어느 하나에 포함시키는 모습을 나타낸 도면이다.
전술한 바와 같이 프로세서(120)는 텍스트 데이터풀에 포함된 기존 텍스트 데이터들을 그룹핑할 수 있다.
즉, 도 6의 A 텍스트가 포함된 그룹은 '안녕하세요' 문구가 포함된 a 그룹, B 텍스트가 포함된 그룹은 '사랑해요' 문구가 포함된 b 그룹, C 텍스트가 포함된 그룹은 '고마워요' 문구가 포함된 c 그룹이라고 각각 설정할 수 있다.
Feature vector 측면에서 살펴볼 때, 도 6과 같이 A 텍스트를 기준으로 d'거리에 위치한 텍스트들이 하나의 그룹이 되고, B 텍스트를 기준으로 d,,거리에 위치한 텍스트들이 다른 하나의 그룹이 되고, C 텍스트를 기준으로 d,,,거리에 위치한 텍스트들이 또 다른 하나의 그룹이 될 수 있다. 설정에 따라서, 도 6과 달리 원 형태가 아니라 다양한 형태로서 그룹이 형성될 수도 있을 것이다.
위와 같이, a, b, c 그룹이 존재하는 상태에서, 신규 텍스트 데이터에 대한 feature vector가 연산될 수 있다. 프로세서(120)는 상기 a, b, c 그룹의 feature vector와 상기 신규 텍스트 데이터에 대한 feature vector를 비교하고, 신규 텍스트 데이터에 대한 feature vector와 가장 근접한 그룹을 탐색할 수 있다.
다음으로, 프로세서(120)는 가장 근접한 소정 그룹(ex c 그룹)에 신규 텍스트 데이터를 포함시킬 수 있다. 일 실시예에 따라서는 C 텍스트와 신규 텍스트가 동일/유사한 것으로 판단되어 프로세서(120)가 신규 텍스트를 텍스트 데이터풀에 기록하지 않을 수 있을 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 컴퓨팅 장치
110: 통신부
120: 프로세서
130: 데이터베이스
200: 사용자 단말

Claims (8)

  1. 필터링된 텍스트 데이터를 수집하는 방법에 있어서,
    기존 텍스트 데이터에 해당하는 제1 텍스트 데이터가 복수 개이고, 상기 복수 개의 제1 텍스트 데이터가 적어도 제1-1 텍스트 데이터, 제1-2 텍스트 데이터 및 제1-3 텍스트 데이터를 포함하고 있다고 할 때,
    (a) 컴퓨팅 장치가, 상기 제1 텍스트 데이터를 획득하고 이를 텍스트 데이터풀에 기록하는 단계;
    (b) 상기 컴퓨팅 장치가, 신규 텍스트 데이터에 해당하는 제2 텍스트 데이터를 획득하는 단계;
    (c) 상기 컴퓨팅 장치가, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하되, 상기 제1 feature vector는 상기 제1-1 텍스트 데이터에 대응하는 제1-1 feature vector, 상기 제1-2 텍스트 데이터에 대응하는 제1-2 feature vector 및 상기 제1-3 텍스트 데이터에 대응하는 제1-3 feature vector를 포함하는 단계; 및
    (d) 상기 컴퓨팅 장치가, i) 상기 제1-1 feature vector 및 상기 제2 feature vector의 제1 유사 정도, 상기 제1-2 feature vector 및 상기 제2 feature vector의 제2 유사 정도 및 상기 제1-3 feature vector 및 상기 제2 feature vector의 제3 유사 정도를 비교하고, 상기 복수의 유사 정도에 기초하여 상기 제1-1 텍스트 데이터, 상기 제1-2 텍스트 데이터 및 상기 제1-3 텍스트 데이터를 정렬하며,
    ii-1) 상기 정렬된 텍스트 데이터 중에서 상기 유사 정도가 소정 수치보다 높거나 같은 특정 텍스트 데이터가 존재하는 경우,
    상기 특정 텍스트 데이터 및 상기 제2 텍스트 데이터를 사용자 단말에 전송하여, 사용자로 하여금 상기 특정 텍스트 데이터 및 상기 제2 텍스트 데이터를 비교하도록 하고, 획득한 상기 사용자의 입력에 기초하여 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하며,
    ii-2) 상기 정렬된 텍스트 데이터 중에서 상기 유사 정도가 상기 소정 수치보다 높거나 같은 상기 특정 텍스트 데이터가 존재하지 않는 경우,
    상기 복수 개의 제1 텍스트 데이터 중에서 상기 제2 텍스트 데이터와 가장 유사하다고 판단되는 제1 텍스트 데이터를 재특정 텍스트 데이터로 설정하고, 상기 재특정 텍스트 데이터의 feature vector와의 유사 정도가 기설정 수치보다 높거나 같은 복수의 소정 feature vector를 탐색하며, 상기 복수의 소정 feature vector에 대응하는 복수의 소정 텍스트 데이터 및 상기 재특정 텍스트 데이터를 상기 사용자 단말에 전송하여, 상기 사용자로 하여금 상기 복수의 소정 텍스트 데이터 및 상기 재특정 텍스트 데이터 각각과 상기 제2 텍스트 데이터를 비교하도록 하고, 획득한 상기 사용자의 입력에 기초하여 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 단계;
    를 포함하고,
    상기 제1-1 텍스트 데이터는 제1 객체를 포함하고, 상기 제1-2 텍스트 데이터는 제2 객체를 포함하며, 상기 제1-3 텍스트 데이터는 제3 객체를 포함한다고 할 때,
    상기 컴퓨팅 장치가, 상기 제1-1 feature vector를 기초로 상기 제1 객체에 대응하는 제1 거리안에 위치하는 텍스트 데이터를 상기 제1-1 텍스트 데이터와 함께 제1 그룹에 포함시키고, 상기 제1-2 feature vector를 기초로 상기 제2 객체에 대응하는 제2 거리안에 위치하는 텍스트 데이터를 상기 제1-2 텍스트 데이터와 함께 제2 그룹에 포함시키며, 상기 제1-3 feature vector를 기초로 상기 제3 객체에 대응하는 제3 거리안에 위치하는 텍스트 데이터를 상기 제1-3 텍스트 데이터와 함께 제3 그룹에 포함시키고,
    상기 제1 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제1-1 유사 정도를 산출하고, 상기 제2 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제2-1 유사 정도를 산출하며, 상기 제3 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제3-1 유사 정도를 산출하고, 상기 산출된 복수의 유사 정도에 기초하여 상기 제2 텍스트 데이터를 상기 제1 그룹, 상기 제2 그룹 및 상기 제3 그룹 중 어느 하나에 포함시키는 것을 특징으로 하는 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 제1 feature vector가 N 차원에 존재하는 제1 지점, 상기 제2 feature vector가 N차원에 존재하는 제2 지점에 해당한다고 할 때,
    상기 제1 feature vector 및 상기 제2 feature vector의 유사 정도는 상기 제1 지점과 상기 제2 지점 사이의 거리를 나타내는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 컴퓨팅 장치는, 상기 텍스트 데이터풀에 기록된 복수의 텍스트 데이터에 대응하는 복수의 feature vector 각각의 인접 정도에 기초하여, 상기 복수의 텍스트 데이터를 그룹핑하는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    상기 (a) 단계 이전에,
    상기 딥러닝 모델의 연산을 수행하기 위해 적어도 하나의 파라미터가 존재하는 상태에서,
    제1 트레이닝 텍스트 데이터와 제2 트레이닝 텍스트 데이터의 유사 여부가 제1 비교 데이터라고 할 때,
    (a1) 상기 컴퓨팅 장치가, 상기 제1 트레이닝 텍스트 데이터 및 상기 제2 트레이닝 텍스트 데이터를 입력 값으로 하여, 상기 딥러닝 모델에서 연산을 수행하고, 상기 제1 트레이닝 텍스트 데이터에 대응하는 제1 트레이닝 feature vector 및 상기 제2 트레이닝 텍스트 데이터에 대응하는 제2 트레이닝 feature vector를 산출하는 단계; 및
    (a2) 상기 컴퓨팅 장치가, 상기 제1 트레이닝 feature vector 및 상기 제2 트레이닝 feature vector의 유사 정도를 비교하여 제2 비교 데이터를 도출하고, 상기 제1 비교 데이터 및 상기 제2 비교 데이터를 기초로 상기 딥러닝 모델의 적어도 하나의 파라미터를 조절하는 단계;
    를 포함하는 방법.
  7. 제1항에 있어서,
    상기 컴퓨팅 장치가, 크라우드 소싱을 통해 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 획득하는 것을 특징으로 하는 방법.
  8. 필터링된 텍스트 데이터를 수집하는 컴퓨팅 장치에 있어서,
    기존 텍스트 데이터에 해당하는 제1 텍스트 데이터가 복수 개이고, 상기 복수 개의 제1 텍스트 데이터가 적어도 제1-1 텍스트 데이터, 제1-2 텍스트 데이터 및 제1-3 텍스트 데이터를 포함하고 있다고 할 때,
    상기 제1 텍스트 데이터 및 신규 텍스트 데이터에 해당하는 제2 텍스트 데이터를 획득하는 통신부;
    상기 제1 텍스트 데이터를 텍스트 데이터풀에 기록하고, 상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터를 입력 값으로 하여, 딥러닝 모델에서 연산을 수행하고, 상기 제1 텍스트 데이터에 대응하는 제1 feature vector 및 상기 제2 텍스트 데이터에 대응하는 제2 feature vector를 산출하되, 상기 제1 feature vector는 상기 제1-1 텍스트 데이터에 대응하는 제1-1 feature vector, 상기 제1-2 텍스트 데이터에 대응하는 제1-2 feature vector 및 상기 제1-3 텍스트 데이터에 대응하는 제1-3 feature vector를 포함하며,
    i) 상기 제1-1 feature vector 및 상기 제2 feature vector의 제1 유사 정도, 상기 제1-2 feature vector 및 상기 제2 feature vector의 제2 유사 정도 및 상기 제1-3 feature vector 및 상기 제2 feature vector의 제3 유사 정도를 비교하고, 상기 복수의 유사 정도에 기초하여 상기 제1-1 텍스트 데이터, 상기 제1-2 텍스트 데이터 및 상기 제1-3 텍스트 데이터를 정렬하며,
    ii-1) 상기 정렬된 텍스트 데이터 중에서 상기 유사 정도가 소정 수치보다 높거나 같은 특정 텍스트 데이터가 존재하는 경우,
    상기 특정 텍스트 데이터 및 상기 제2 텍스트 데이터를 상기 통신부를 이용하여 사용자 단말에 전송하여, 사용자로 하여금 상기 특정 텍스트 데이터 및 상기 제2 텍스트 데이터를 비교하도록 하고, 획득한 상기 사용자의 입력에 기초하여 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하며,
    ii-2) 상기 정렬된 텍스트 데이터 중에서 상기 유사 정도가 상기 소정 수치보다 높거나 같은 상기 특정 텍스트 데이터가 존재하지 않는 경우,
    상기 복수 개의 제1 텍스트 데이터 중에서 상기 제2 텍스트 데이터와 가장 유사하다고 판단되는 제1 텍스트 데이터를 재특정 텍스트 데이터로 설정하고, 상기 재특정 텍스트 데이터의 feature vector와의 유사 정도가 기설정 수치보다 높거나 같은 복수의 소정 feature vector를 탐색하며, 상기 복수의 소정 feature vector에 대응하는 복수의 소정 텍스트 데이터 및 상기 재특정 텍스트 데이터를 상기 통신부를 이용하여 상기 사용자 단말에 전송하여, 상기 사용자로 하여금 상기 복수의 소정 텍스트 데이터 및 상기 재특정 텍스트 데이터 각각과 상기 제2 텍스트 데이터를 비교하도록 하고, 획득한 상기 사용자의 입력에 기초하여 상기 제2 텍스트 데이터를 상기 텍스트 데이터풀에 기록하는 프로세서;
    를 포함하고,
    상기 제1-1 텍스트 데이터는 제1 객체를 포함하고, 상기 제1-2 텍스트 데이터는 제2 객체를 포함하며, 상기 제1-3 텍스트 데이터는 제3 객체를 포함한다고 할 때,
    상기 프로세서가, 상기 제1-1 feature vector를 기초로 상기 제1 객체에 대응하는 제1 거리안에 위치하는 텍스트 데이터를 상기 제1-1 텍스트 데이터와 함께 제1 그룹에 포함시키고, 상기 제1-2 feature vector를 기초로 상기 제2 객체에 대응하는 제2 거리안에 위치하는 텍스트 데이터를 상기 제1-2 텍스트 데이터와 함께 제2 그룹에 포함시키며, 상기 제1-3 feature vector를 기초로 상기 제3 객체에 대응하는 제3 거리안에 위치하는 텍스트 데이터를 상기 제1-3 텍스트 데이터와 함께 제3 그룹에 포함시키고,
    상기 제1 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제1-1 유사 정도를 산출하고, 상기 제2 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제2-1 유사 정도를 산출하며, 상기 제3 그룹에 포함된 feature vector 및 상기 제2 feature vector의 제3-1 유사 정도를 산출하고, 상기 산출된 복수의 유사 정도에 기초하여 상기 제2 텍스트 데이터를 상기 제1 그룹, 상기 제2 그룹 및 상기 제3 그룹 중 어느 하나에 포함시키는 컴퓨팅 장치.
KR1020190164009A 2019-12-10 2019-12-10 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치 KR102114267B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190164009A KR102114267B1 (ko) 2019-12-10 2019-12-10 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
US17/771,221 US20220374601A1 (en) 2019-12-10 2020-10-20 Deep learning-based method for filtering out similar text, and apparatus using same
PCT/KR2020/014337 WO2021118040A1 (ko) 2019-12-10 2020-10-20 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190164009A KR102114267B1 (ko) 2019-12-10 2019-12-10 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치

Publications (1)

Publication Number Publication Date
KR102114267B1 true KR102114267B1 (ko) 2020-05-22

Family

ID=70913842

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190164009A KR102114267B1 (ko) 2019-12-10 2019-12-10 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치

Country Status (3)

Country Link
US (1) US20220374601A1 (ko)
KR (1) KR102114267B1 (ko)
WO (1) WO2021118040A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210127120A (ko) * 2020-09-29 2021-10-21 바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디. 의료 데이터 검증 방법, 장치 및 전자 기기

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102114223B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치
JP2022106147A (ja) * 2021-01-06 2022-07-19 富士通株式会社 判定モデル生成プログラム、情報処理装置及び判定モデル生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120016747A (ko) * 2010-08-17 2012-02-27 에스케이 텔레콤주식회사 분산파일 시스템에서의 중복 제거 장치 및 방법
US20180067945A1 (en) * 2016-09-08 2018-03-08 Facebook, Inc. Categorizing Objects for Queries on Online Social Networks
KR20180062321A (ko) * 2016-11-29 2018-06-08 (주)아크릴 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
US20180349350A1 (en) * 2017-06-01 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for checking text

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055078B2 (en) * 2008-02-28 2011-11-08 Yahoo! Inc. Filter for blocking image-based spam
KR102260631B1 (ko) * 2015-01-07 2021-06-07 한화테크윈 주식회사 중복 이미지 파일 검색 방법 및 장치
CN108228871A (zh) * 2017-07-21 2018-06-29 北京市商汤科技开发有限公司 人脸图像动态入库方法和装置、电子设备、介质、程序

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120016747A (ko) * 2010-08-17 2012-02-27 에스케이 텔레콤주식회사 분산파일 시스템에서의 중복 제거 장치 및 방법
US20180067945A1 (en) * 2016-09-08 2018-03-08 Facebook, Inc. Categorizing Objects for Queries on Online Social Networks
KR20180062321A (ko) * 2016-11-29 2018-06-08 (주)아크릴 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
US20180349350A1 (en) * 2017-06-01 2018-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for checking text

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
이순행 외 3인, WWW 환경에서 중복문서의 검출 기법에 대한 고찰, 데이터베이스연구 제25권 제1호. 1~17페이지, 2009년 4월* *
임근영 외 2인, 딥러닝과 Char2Vec을 이용한 문장 유사도 판별, 한국정보통신학회논문지 Vol. 22, No. 10. 1300~1306페이지, 2018년 10월* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210127120A (ko) * 2020-09-29 2021-10-21 바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디. 의료 데이터 검증 방법, 장치 및 전자 기기
KR102636493B1 (ko) * 2020-09-29 2024-02-14 바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디. 의료 데이터 검증 방법, 장치 및 전자 기기

Also Published As

Publication number Publication date
WO2021118040A1 (ko) 2021-06-17
US20220374601A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
KR102114223B1 (ko) 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치
KR102114267B1 (ko) 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
CN105389349B (zh) 词典更新方法及装置
US20190056423A1 (en) Adjoint analysis method and apparatus for data
US9412077B2 (en) Method and apparatus for classification
US9582819B2 (en) Automated-valuation-model training-data optimization systems and methods
KR102143782B1 (ko) 작업 난이도에 따라 레이블링 작업을 분배하는 방법 및 그를 이용한 장치
US10078502B2 (en) Verification of a model of a GUI-based application
CN108074016B (zh) 基于位置社交网络的用户关系强度预测方法、装置及设备
KR102538546B1 (ko) 지리적 영역 선택의 최적화
EP3358474B1 (en) Route search method, device and apparatus, and non-volatile computer storage medium
CN104850489B (zh) 移动应用测试系统
CN105701120A (zh) 确定语义匹配度的方法和装置
US20220366677A1 (en) Method for inspecting labeling on bounding box by using deep learning model and apparatus using same
US20230024680A1 (en) Method of determining regional land usage property, electronic device, and storage medium
US20190205475A1 (en) Search engine for identifying analogies
US11893073B2 (en) Method and apparatus for displaying map points of interest, and electronic device
US9910878B2 (en) Methods for processing within-distance queries
CN111144109A (zh) 文本相似度确定方法和装置
US11144712B2 (en) Dictionary creation apparatus, dictionary creation method, and non-transitory computer-readable storage medium for storing dictionary creation program
KR101145278B1 (ko) 유사한 이미지들로부터 대표 이미지를 선택하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US10963743B2 (en) Machine learning with small data sets
KR102143780B1 (ko) 딥러닝 모델을 이용하여 텍스트 개체에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
US20230186150A1 (en) Hyperparameter selection using budget-aware bayesian optimization
CN111191795B (zh) 一种训练机器学习模型的方法、装置及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant