KR20220160947A - 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치 - Google Patents

텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치 Download PDF

Info

Publication number
KR20220160947A
KR20220160947A KR1020210069245A KR20210069245A KR20220160947A KR 20220160947 A KR20220160947 A KR 20220160947A KR 1020210069245 A KR1020210069245 A KR 1020210069245A KR 20210069245 A KR20210069245 A KR 20210069245A KR 20220160947 A KR20220160947 A KR 20220160947A
Authority
KR
South Korea
Prior art keywords
text
sentence
noise
candidate
corrected
Prior art date
Application number
KR1020210069245A
Other languages
English (en)
Inventor
강나은
안경준
장성호
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020210069245A priority Critical patent/KR20220160947A/ko
Priority to US17/828,120 priority patent/US11847407B2/en
Publication of KR20220160947A publication Critical patent/KR20220160947A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치에 관한 것이다. 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 방법은, 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 텍스트의 품질을 검사하는 단계, 상기 검사의 결과에 기초하여, 상기 텍스트를 보정하는 단계, 상기 보정된 텍스트에 포함된 문장 각각의 유형에 기초하여 노이즈 후보를 선정하되, 상기 노이즈 후보는 상기 텍스트에 포함된 문장 별로 선정되는 것인, 단계 및 상기 텍스트의 용도에 기초하여, 상기 노이즈 후보에 포함된 적어도 일부의 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함할 수 있다.

Description

텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치{APPARATUS FOR REMOVING TEXT NOISE FOR TEXT ANALYSIS AND METHOD THEREOF}
본 개시는 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 텍스트에 포함된 문장 별로 노이즈 후보를 선정하고, 텍스트의 용도에 기초하여 노이즈 후보에 포함된 적어도 일부의 문장을 텍스트에서 제거하는 방법 및 그 장치에 관한 것이다.
최근 이미지 분야에서 많은 성과를 얻은 딥러닝 모델들을 텍스트 분야에 적용하는 시도들이 이루어 지고 있다. 이를 위해 입력을 벡터화하게 되는데 이 과정에서 워드 벡터를 구성하게 된다. 워드 벡터를 구성하는 기준으로는 특정 단어의 문서 내 출현 빈도 및 복수의 단어의 문서 내 동시 출현 빈도 등이 있다.
인공 지능 기술이 적용된 딥러닝 모델을 학습시키기 위해서는 학습 데이터의 질적인 측면과 양적인 측면을 모두 만족시킬 필요가 있다. 특히, 학습 데이터의 질적인 측면을 만족시키기 위한 다양한 전처리 기술이 시도되고 있다.
종래의 전처리 기술은 불용어(stop-words)를 텍스트에서 제거하거나 특수 문자를 텍스트에서 제거하는 등 단어 단위의 노이즈 제거에만 집중되어 있다. 그러나, 텍스트의 유형에 따라 반복적으로 기록되는 문장을 제거할 필요가 있으므로, 텍스트에서 문장 단위의 노이즈 제거의 필요성이 대두되고 있다.
한국공개특허 제10-1852116호 (2018.04.19 공개)
본 개시의 몇몇 실시예를 통해 해결하고자 하는 기술적 과제는, 문장 단위의 노이즈를 텍스트에서 제거하는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 다른 기술적 과제는, 텍스트의 분석 용도에 대응되도록 노이즈 제거의 수준을 조절하는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 또 다른 기술적 과제는, 텍스트 분석의 성능을 향상시키기 위한 전처리를 제공하는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 방법은, 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 텍스트의 품질을 검사하는 단계, 상기 검사의 결과에 기초하여, 상기 텍스트를 보정하는 단계, 상기 보정된 텍스트에 포함된 문장 각각의 유형에 기초하여 노이즈 후보를 선정하되, 상기 노이즈 후보는 상기 텍스트에 포함된 문장 별로 선정되는 것인, 단계 및 상기 텍스트의 용도에 기초하여, 상기 노이즈 후보에 포함된 적어도 일부의 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함할 수 있다.
일 실시예에서, 상기 텍스트의 품질을 검사하는 단계는, 미리 결정된 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함할 수 있다. 여기서, 상기 텍스트를 분류하는 단계는, 상기 텍스트의 메타 데이터에 기초하여, 상기 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함하거나 상기 텍스트의 손상도에 기초하여, 상기 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함할 수 있다. 이때, 상기 손상도는, 상기 텍스트의 띄어쓰기 오류, 오탈자, 축약어 및 미지어 중 적어도 하나의 빈도에 기초하여 결정되는 것일 수 있다.
일 실시예에서, 상기 텍스트를 보정하는 단계는, 상기 분류된 품질 카테고리에 대응되도록 상기 텍스트를 보정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 텍스트를 보정하는 단계는, 상기 텍스트에 포함된 단어 별로 상기 텍스트를 보정하되, 상기 텍스트에 포함된 오탈자, 축약어 및 미지어 중 적어도 하나를 보정하는 단계를 포함할 수 있다. 여기서, 상기 텍스트에 포함된 문장 별로, 상기 단어 별로 보정된 텍스트를 보정하는 단계를 더 포함할 수도 있다. 이때, 상기 문장 별로 보정하는 단계는, 상기 단어 별로 보정된 텍스트에 포함된 제1 문장이 기 학습된 언어 모델에 입력된 결과, 상기 제1 문장과 연관되어 출력된 복수의 구문 중 길이가 최대인 제1 구문을 추출하는 단계, 상기 추출된 제1 구문을 이용하여, 상기 제1 문장에 대응되는 제2 문장을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 노이즈 후보를 선정하는 단계는, 상기 보정된 텍스트에 포함된 문장 별로 대응되는 발화자를 식별하는 단계를 포함할 수 있다. 여기서, 상기 문장 별로 발화자를 식별하는 단계는, 상기 보정된 텍스트의 문단에 포함된 복수의 문장 각각에 대응되는 발화자가 기준 비율 이상 제1 발화자로 결정되면, 상기 문단에 대응되는 발화자를 상기 제1 발화자로 식별하는 단계를 포함할 수 있다. 또한, 상기 노이즈 후보를 선정하는 단계는, 상기 식별된 발화자에 기초하여, 상기 노이즈 후보를 선정하는 단계를 더 포함할 수도 있다.
일 실시예에서, 상기 노이즈 후보를 선정하는 단계는, 상기 보정된 텍스트에 포함된 문장의 유형을 정적 유형 및 동적 유형 중 어느 하나로 결정하는 단계 및 상기 정적 유형으로 결정된 문장을 노이즈 후보로 선정하는 단계를 포함할 수 있다. 여기서, 상기 동적 유형으로 결정된 문장이 인적 사항을 나타내는 문장이면, 상기 노이즈 후보로 선정하는 단계를 더 포함하거나 상기 동적 유형으로 결정된 문장이 감정을 나타내는 문장이면, 상기 노이즈 후보로 선정하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 문장의 유형을 결정하는 단계는, 기 저장된 복수의 저장 텍스트에 기초하여, 상기 문장의 유형을 결정하는 단계를 포함할 수 있다. 여기서, 상기 복수의 저장 텍스트에 기초하여, 상기 문장의 유형을 결정하는 단계는, 상기 보정된 텍스트에 포함된 문장이 상기 복수의 저장 텍스트에 기준 비율 이상 포함되면, 상기 보정된 텍스트에 포함된 문장을 상기 정적 유형으로 결정하고, 상기 기준 비율 미만 포함되면, 상기 보정된 텍스트에 포함된 문장을 상기 동적 유형으로 결정할 수 있다.
일 실시예에서, 상기 문장을 제거하는 단계는, 상기 노이즈 후보에 포함된 문장의 제거 우선 순위를 결정하는 단계 및 상기 제거 우선 순위의 순서에 따라 상기 용도에 대응되는 제거 범위만큼 상기 노이즈 후보에 포함된 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함할 수 있다.
일 실시예에서, 상기 문장을 제거하는 단계는, 상기 노이즈 후보에 포함된 문장을 미리 결정된 복수의 노이즈 레벨 중 어느 하나의 레벨로 분류하는 단계 및 상기 용도에 대응되는 노이즈 레벨에 포함된 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함할 수 있다.
본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 장치는, 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 텍스트의 품질을 검사하는 인스트럭션(Instruction), 상기 검사의 결과에 기초하여, 상기 텍스트를 보정하는 인스트럭션, 상기 보정된 텍스트에 포함된 문장 각각의 유형에 기초하여 노이즈 후보를 선정하되, 상기 노이즈 후보는 상기 텍스트에 포함된 문장 별로 선정되는 것인, 인스트럭션 및 상기 텍스트의 용도에 기초하여, 상기 노이즈 후보에 포함된 적어도 일부의 문장을 상기 보정된 텍스트에서 제거하는 인스트럭션을 포함할 수 있다.
도 1은 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 장치가 적용될 수 있는 예시적인 환경을 도시한다.
도 2는 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 방법을 나타내는 예시적인 흐름도이다.
도 3은 도 2를 참조하여 설명된 텍스트의 품질을 검사하는 동작을 보다 구체적으로 설명하기 위한 예시적인 흐름도이다.
도 4는 도 2를 참조하여 설명된 텍스트를 보정하는 동작을 보다 구체적으로 설명하기 위한 예시적인 흐름도이다.
도 5는 도 4를 참조하여 설명된 문장 별로 텍스트를 보정하는 동작을 보다 구체적으로 설명하기 위한 예시적인 흐름도이다.
도 6은 도 2를 참조하여 설명된 노이즈 후보를 선정하는 동작을 보다 구체적으로 설명하기 위한 예시적인 흐름도이다.
도 7은 도 2를 참조하여 설명된 노이즈 후보를 선정하는 동작을 보다 구체적으로 설명하기 위한 다른 예시적인 흐름도이다.
도 8은 도 2를 참조하여 설명된 노이즈를 제거하는 동작을 보다 구체적으로 설명하기 위한 예시적인 흐름도이다.
도 9는 도 2를 참조하여 설명된 노이즈를 제거하는 동작을 보다 구체적으로 설명하기 위한 다른 예시적인 흐름도이다.
도 10은 몇몇 실시예에서 참조될 수 있는 질의/응답형 텍스트의 예시적인 도면이다.
도 11은 본 개시의 다양한 실시예에 따른 장치 및/또는 시스템을 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성 요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성 요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 장치(100)가 적용될 수 있는 예시적인 환경을 도시한다. 도 1은 1개의 텍스트 분석 장치(300)가 네트워크에 연결된 것을 도시하고 있으나, 이는 이해의 편의를 제공하기 위한 것일 뿐이고, 텍스트 분석 장치(300)의 개수는 얼마든지 달라질 수 있다.
한편, 도 1은 본 개시의 목적을 달성하기 위한 바람직한 실시예를 도시하고 있을 뿐이며, 필요에 따라 일부 구성 요소가 추가되거나 삭제될 수 있다. 또한, 도 1에 도시된 예시적인 환경의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 예를 들어, 노이즈 제거 장치(100)와 텍스트 분석 장치(300)는 동일한 컴퓨팅 장치 내에 서로 다른 로직(logic)의 형태로 구현될 수도 있다.
이하, 도 1에 도시된 각 구성 요소들에 대해 보다 구체적으로 설명하기로 한다.
노이즈 제거 장치(100)는 데이터베이스(200)에 저장된 텍스트를 로드(load)할 수 있다. 또한, 노이즈 제거 장치(100)는 텍스트 수집 장치(미도시)로부터 입력된 텍스트를 로드할 수도 있다. 본 개시의 몇몇 실시예에서 참조될 수 있는 텍스트는 문자의 형태로 기록된 모든 데이터를 의미할 수 있으며, 노이즈 제거 장치(100)가 텍스트를 로드하는 경로에 의해 본 개시의 범위가 한정되는 것은 아님을 유의해야 한다.
노이즈 제거 장치(100)는 텍스트 분석 장치(300)가 수행할 분석의 용도에 대응되도록 텍스트를 전처리할 수 있다. 예를 들어, 텍스트를 보정할 수 있고, 다른 예를 들어, 텍스트의 노이즈를 제거할 수 있다. 노이즈 제거 장치(100)가 전처리를 수행하는 다양한 방법들에 관해서는, 추후 도 2 내지 도 10의 도면을 참조하여 설명하기로 한다.
노이즈 제거 장치(100)는 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 노이즈 제거 장치(100)의 모든 기능은 단일 컴퓨팅 장치에서 구현될 수 있다. 다른 예로써, 노이즈 제거 장치(100)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 여기서, 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 다만, 노이즈 제거 장치(100)에 다양한 텍스트가 로드되어 텍스트 분석 장치(300)의 분석 용도에 대응되도록 텍스트를 전처리해야 되는 환경이라면, 노이즈 제거 장치(100)는 고성능의 서버급 컴퓨팅 장치로 구현되는 것이 바람직할 수 있다. 이러한 컴퓨팅 장치의 일 예에 대해서는 추후 도 11을 참조하여 설명하기로 한다.
다음으로, 데이터베이스(200)는 텍스트를 저장할 수 있다. 여기서, 텍스트는 텍스트 수집 장치(미도시)에 의해 수집된 텍스트일 수 있다. 보다 구체적으로, 텍스트 수집 장치(미도시)는 다양한 데이터 소스에서 데이터를 수집하여, 데이터베이스(200)에 전송할 수 있고, 데이터베이스(200)는 텍스트 수집 장치(미도시)가 전송한 텍스트를 저장할 수 있다. 예를 들어, 텍스트 수집 장치(미도시)가 고객 센터의 데이터를 크롤링할 수 있으며, 크롤링된 고객센터의 데이터는 주로 질의/응답형 텍스트일 수 있다.
몇몇 실시예에서, 데이터베이스(200)는 노이즈 제거 장치(100)가 생성한 노이즈가 제거된 텍스트를 저장할 수도 있다. 여기서, 데이터베이스(200)는 원본 텍스트와 노이즈가 제거된 텍스트를 연관시켜 저장할 수도 있다.
다음으로, 텍스트 분석 장치(300)는 노이즈 제거 장치(100)가 생성한 노이즈가 제거된 텍스트를 이용하여, 텍스트를 분석할 수 있다. 텍스트 분석 장치(300)가 텍스트를 분석하기 위한 모든 공지 기술이 본 개시에 적용될 수 있다. 예를 들어, 텍스트 분석 장치(300)는 노이즈 제거 장치(100)가 생성한 노이즈가 제거된 텍스트를 이용하여, 검색 모델을 생성할 수 있다. 다른 예를 들어, 텍스트 분석 장치(300)는 다양한 목적의 분류 모델을 생성할 수도 있다. 또 다른 예를 들어, 텍스트 분석 장치(300)는 토픽 추출 모델, 클러스터링 모델, 이벤트 프로세싱 모델 및 추론 모델 등의 모델을 생성할 수도 있다.
다음으로, 사용자 장치(400)는 텍스트 분석 장치(300)가 생성한 모델을 이용할 수 있다. 예를 들어, 사용자 장치(400)는 텍스트 분석 장치(300)가 생성한 검색 모델을 이용할 수 있다. 여기서, 사용자 장치(400)는 텍스트 분석 장치(300)가 생성한 모델을 이용하기 위하여 웹 웹 브라우저(Web browser) 또는 전용 애플리케이션이 설치되어 있을 수 있으며, 예를 들어, 사용자 장치(400)는 데스크탑(Desktop), 워크스테이션(Workstation), 랩탑(Laptop), 태블릿(Tablet) 및 스마트폰(Smart Phone) 중 어느 하나가 될 수 있으나, 이에 한정되지 않고, 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다.
한편, 도 1에 도시된 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
몇몇 실시예에서, 도 1에 도시된 구성 요소들은 네트워크를 통해 통신할 수 있다. 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 이동 통신망(mobile radio communication network), Wibro(Wireless Broadband Internet) 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.
지금까지 도 1을 참조하여 본 개시의 몇몇 실시예에 따른 노이즈 제거 장치(100)의 구성 및 동작에 대하여 설명하였다. 이하에서는 도 2 내지 도 9를 참조하여, 본 개시의 다양한 실시예에 따른 방법들에 대하여 상세하게 설명하도록 한다.
방법들의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 방법들의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 방법들에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 방법들의 각 단계가 도 1에 예시된 노이즈 제거 장치(100)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 다만, 설명의 편의상, 상기 방법들에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다.
도 2를 참조하면 단계 S100에서, 텍스트의 품질이 검사될 수 있다. 본 실시예에 따르면, 원본 텍스트의 품질이 검사됨으로써 텍스트의 보정 필요 여부를 결정할 수 있다. 또한, 보정이 필요하다면, 필요한 보정의 정도도 결정할 수 있다.
이와 관련된 보다 구체적인 설명을 위해 도 3을 참조하여 설명하기로 한다. 도 3을 참조하면 단계 S110에서, 미리 결정된 복수의 품질 카테고리 중 어느 하나로 텍스트가 분류될 수 있다. 예를 들어, 미리 결정된 복수의 품질 카테고리는 3개의 카테고리를 포함할 수 있으며, 제1 카테고리는 텍스트의 품질이 높은 텍스트들이 분류되는 카테고리이며, 제2 카테고리는 텍스트의 품질이 중간인 텍스트들이 분류되는 카테고리이며, 제3 카테고리는 텍스트의 품질이 낮은 텍스트들이 분류되는 카테고리일 수 있다. 예를 들어, 사용자의 개입 없이 기록되는 시스템 로그는 텍스트의 품질이 높은 제1 카테고리로 분류될 수 있다. 다른 예를 들어, 게시판/메일을 통한 상담 내역에 관련된 텍스트는 품질이 중간인 제2 카테고리로 분류될 수 있다. 또 다른 예를 들어, 전화 상담 내역에 관련된 텍스트는 STT(Speech To Text) 변환에 의한 것으로써, 품질이 낮은 제3 카테고리로 분류될 수 있다. 본 예시에서는 품질 카테고리를 3개의 카테고리로 설명하고 있으나, 이는 예시적인 것일 뿐, 품질 카테고리의 개수는 얼마든지 달라질 수 있음을 유의해야 한다.
단계 S110과 관련된 몇몇 실시예에서, 텍스트가 분류된 품질 카테고리에 대응되도록 보정될 수 있다. 예를 들어, 텍스트의 품질이 높은 제1 카테고리에 분류된 텍스트는 보정이 수행되지 않을 수 있으며, 텍스트의 품질이 중간인 제2 카테고리에 분류된 텍스트는 낮은 수준의 보정(e.g., 텍스트에 포함된 단어 별 보정이 수행)이 수행될 수 있으며, 텍스트의 품질이 낮은 제3 카테고리에 분류된 텍스트는 높은 수준의 보정(e.g., 텍스트에 포함된 단어 별 보정 및 문장 별 보정이 함께 수행)이 수행될 수 있다. 본 실시예에 따르면, 원본 텍스트의 품질에 대응되는 보정이 수행됨으로써, 컴퓨팅 리소스가 불필요하게 낭비되는 것이 방지될 수 있다.
텍스트를 복수의 품질 카테고리로 분류하기 위한 단계 S110과 관련된 몇몇 실시예에서, 텍스트의 메타 데이터에 기초하여, 복수의 품질 카테고리 중 어느 하나로 텍스트가 분류될 수 있다. 여기서, 텍스트의 메타 데이터는 파일명, 파일 확장자 및 파일 작성자 등에 관한 데이터를 포함할 수 있다. 보다 구체적인 예를 들어, 메타 데이터에 포함될 수 있는 특징으로는, 파일명에 apache 및 java 등과 관련된 특징이 포함되거나 파일 확장자에 log 및 error 등과 관련된 특징이 포함되거나 파일 작성자에 system, linux 및 unix 등이 포함된 경우일 수 있다. 다만, 상술한 예시들에 본 개시의 범위가 한정되는 것은 아니고, 메타 데이터에 포함될 수 있는 특징들은 전부 본 개시에 적용될 수 있음을 유의해야 한다.
메타 데이터를 이용한 텍스트 분류와 관련된 몇몇 실시예에서, 메타 데이터에 포함될 수 있는 특징(feature)들을 테이블로 관리하고, 텍스트에 임베드된 메타 데이터에서 특징들이 검출되면 스코어링을 수행함으로써, 텍스트가 복수의 품질 카테고리 중 어느 하나로 분류될 수 있다. 또한 경우에 따라서, 스코어링을 수행할 때 검출된 특징에 따른 가중치가 적용될 수도 있다.
텍스트를 복수의 품질 카테고리로 분류하기 위한 단계 S110과 관련된 다른 몇몇 실시예에서, 텍스트의 손상도에 기초하여, 복수의 품질 카테고리 중 어느 하나로 텍스트가 분류될 수도 있다. 이때, 손상도는 텍스트에 포함된 띄어쓰기 오류, 오탈자, 축약어 및 미지어 중 적어도 하나의 빈도에 기초하여 결정되는 것일 수 있다. 상술한 띄어쓰기 오류, 오탈자, 축약어 및 미지어를 검출하기 위한 모든 공지된 검출 모델이 본 개시에 적용될 수 있다. 예를 들어, CER(Character Error Rate) 및 WER(Word Error Rate)와 같은 모델이 적용될 수 있다.
손상도를 이용한 텍스트 분류와 관련된 몇몇 실시예에서, 복수의 품질 카테고리 각각에 대응되는 손상도의 범위를 사전에 결정하고, 텍스트에 포함된 띄어쓰기 오류, 오탈자, 축약어 및 미지어 중 적어도 하나의 빈도에 기초하여 결정된 손상도에 대응되는 품질 카테고리로 텍스트가 분류될 수 있다.
다시 도 2를 참조하여 설명하기로 한다.
도 2를 참조하면 단계 S200에서, 검사의 결과에 기초하여 텍스트가 보정될 수 있다. 이와 관련된 보다 구체적인 설명을 위해 도 4를 참조하여 설명하기로 한다.
도 4를 참조하면 단계 S210에서, 텍스트에 포함된 단어 별로 텍스트가 보정될 수 있다. 여기서, 텍스트를 단어 별로 보정하기 위해서, 텍스트에 포함된 오탈자, 축약어 및 미지어 중 적어도 하나가 보정될 수 있다. 텍스트에 포함된 오탈자, 축약어 및 미지어를 보정하기 위한 공지된 모든 기술이 본 개시에 적용될 수 있다.
다음으로 단계 S220에서, 텍스트에 포함된 문장 별로 텍스트가 보정될 수 있다. 본 실시예에 따르면, 단어 별로 텍스트가 보정되는 동작과 함께 문장 별로 텍스트가 보정되는 동작이 함께 수행됨으로써, 추후 텍스트 분석에 용이한 형식의 텍스트로 원본 텍스트가 보정될 수 있다.
경우에 따라서, 문장 별로 텍스트가 보정되는 단계 S220은 생략될 수도 있다. 본 실시예에 따르면, 텍스트의 품질 검사의 결과에 기초하여, 단어 별 보정만이 수행되고 문장 별 보정은 생략됨으로써, 불필요한 보정에 따른 컴퓨팅 리소스의 소모가 감소될 수 있다.
단계 S220과 관련된 보다 구체적인 설명을 위해 도 5를 참조하여 설명하기로 한다.
도 5를 참조하면 단계 S221에서, 텍스트에 포함된 제1 문장과 연관된 제1 구문이 추출될 수 있다. 여기서, 제1 문장이 기 학습된 언어 모델에 입력된 결과, 제1 문장과 연관되어 출력된 복수의 구문 중 길이가 최대인 제1 구문이 추출될 수 있다. 이때, 언어 모델은 GPT3 모델을 포함할 수 있으며, 도메인 별로 학습된 별도의 모델일 수도 있다.
단계 S221과 관련된 몇몇 실시예에서, 제1 문장을 기 학습된 언어 모델에 입력된 결과, 제1 문장과의 연관도가 가장 높은 제1 구문이 추출될 수 있다. 경우에 따라서, 제1 구문의 길이 및 제1 구문과 제1 문장의 연관도가 함께 고려될 수 있음을 유의해야 한다.
다음으로 단계 S222에서, 제1 구문을 이용하여 제1 문장에 대응되는 제2 문장이 생성될 수 있다. 여기서, 제2 문장은 제1 구문과 연관되어 생성된 문장으로써, 제1 문장이 보정된 문장일 수 있다. 이때, 제2 문장을 생성하기 위한, 모든 공지된 기술이 적용될 수 있으며, 예를 들어, 텍스트를 만들어내는 자기 회귀 언어 모델이 이용될 수 있다.
도 5를 참조하여 설명된 단계 S221 내지 S222의 동작들에 따르면, 텍스트에 포함된 각각의 문장이 기 학습된 언어 모델에 입력되고, 문장과 연관된 구문이 추출되고, 구문에 기초하여 문장이 생성됨으로써, 추후 텍스트 분석에 용이한 형식의 텍스트로 원본 텍스트가 보정될 수 있다.
다시 도 4를 참조하여 설명하기로 한다.
도 4를 참조하면 단계 S230에서, 보정이 완료된 텍스트가 검사될 수 있다. 예를 들어, 텍스트에 포함된 문장 사이의 연결성 검사가 수행될 수 있으며, 다른 예를 들어, 도메인 사전 검사가 수행될 수도 있다. 지금까지 도 4를 참조하여 설명된 동작들에 따라, 텍스트의 품질 검사에 기초한 원본 텍스트의 보정이 수행될 수 있다. 텍스트의 보정을 단어 별, 문장 별로 수행함으로써, 추후 텍스트 분석에 용이한 형식의 텍스트로 원본 텍스트가 보정될 수 있다.
다시 도 2를 참조하여 설명하기로 한다.
도 2를 참조하면 단계 S300에서, 텍스트에 포함된 문장의 유형에 기초하여, 문장 별로 노이즈 후보가 선정될 수 있다. 본 실시예에 따르면, 텍스트에 포함된 문장 별로 노이즈 후보가 선정됨으로써, 텍스트 분석의 정확도를 낮추는 문장이나 형식적으로 반복되어 분석이 요구되지 않는 문장 등이 노이즈 후보로 선정될 수 있다.
이와 관련된 보다 구체적인 설명을 위해 도 6 및 도 7을 참조하여 설명하기로 한다.
본 개시의 몇몇 실시예에서, 텍스트는 발화자가 복수인 대화 내용이 기록된 텍스트일 수 있다. 예를 들어, 고객 센터의 상담 내역이 기록된 텍스트와 같이 질의자와 응답자의 대화 내용이 기록된 텍스트가 본 실시예에 따른 발화자가 복수인 대화 내용이 기록된 텍스트일 수 있다.
몇몇 실시예에서, 발화자가 복수인 대화 내용이 기록된 텍스트일 경우, 텍스트에 포함된 문장에 대응되는 발화자를 식별하는 동작이 노이즈 후보의 선정을 위해 선행될 수 있다. 본 실시예에 따르면, 발화자마다 텍스트에서 반복 기록되는 문장의 패턴이 상이한 점이 이용됨으로써, 노이즈 후보의 선정이 보다 용이해질 수 있다. 예를 들어, 고객 센터의 상담 내역이 기록된 텍스트에서 응답자에 대응되는 문장은 추후 도 7을 참조하여 설명될 정적 유형의 문장일 확률이 높으므로, 정교하게 문장 별 노이즈 후보 선정이 수행될 수 있고, 질의자에 대응되는 문장은 추후 도 7을 참조하여 설명될 동적 유형의 문장일 확률이 높으므로, 개략적으로 문장 별 노이즈 후보 선정이 수행될 수 있다. 다른 예를 들어, 고객 센터의 상담 내역이 기록된 텍스트에서 응답자 A에 대응되는 문장은 기 결정된 응답자 A에 관한 노이즈 후보에 포함된 문장과 비교되고, 응답자 B에 대응되는 문장은 기 결정된 응답자 B에 관한 노이즈 후보에 포함된 문장과 비교됨으로써, 발화자 별로 노이즈 후보의 선정이 수행될 수도 있다.
이하, 도 6을 참조하여 발화자를 식별하여 노이즈 후보를 선정하는 동작을 보다 구체적으로 설명하기로 한다.
도 6을 참조하면 단계 S310에서, 텍스트에 포함된 문장 별로 대응되는 발화자가 식별될 수 있다. 본 실시예에 따르면, 발화자가 문장 별로 식별됨으로써, 추후 식별된 발화자에 기초한 노이즈 후보가 선정될 수 있다.
단계 S310과 관련된 몇몇 실시예에서, 원본 텍스트에 메타 데이터가 임베드된 경우, 메타 데이터를 참조하여 발화자가 식별될 수 있다.
단계 S310과 관련된 다른 몇몇 실시예에서, 기 학습된 발화자 식별 모델이 이용될 수 있다. 예를 들어, 질의/응답형 텍스트의 경우 질의/응답 판별 모델이 이용될 수 있으며, 질의/응답 판별 모델은 입력된 문장이 질의문 및 응답문 중 어느 하나에 속하는지 판별하는 모델일 수 있다. 다른 예를 들어, 텍스트 분류 모델이 이용될 수도 있으며, 텍스트 분류 모델은 입력된 문장을 집단 내 특정 구성원의 문장으로 분류하는 모델일 수 있다. 이외에도 발화자를 식별하기 위한 다양한 발화자 식별 모델이 이용될 수 있음을 이해할 수 있다.
단계 S310과 관련된 또 다른 몇몇 실시예에서, 텍스트의 문단에 포함된 복수의 문장 각각에 대응되는 발화자가 기준 비율 이상 제1 발화자로 결정되면, 문단에 대응되는 발화자를 제1 발화자로 식별할 수 있다. 구체적으로, 문단에 포함된 복수의 문장 각각을 식별된 발화자에 대응되도록 레이블링(labeling)하고, 문단에 포함된 레이블(label)이 기준 비율 이상 제1 발화자에 대응되는 레이블로 결정되면 문단에 대응되는 발화자를 제1 발화자로 식별할 수 있다. 본 실시예에 따르면, 하나의 문단에 대응되는 발화자는 한 명의 발화자일 가능성이 높으므로, 문장 별로 발화자 식별 시 문단에 대응되는 발화자가 복수인 경우라도, 문단에 포함된 복수의 문장 각각에 대응되는 발화자를 한 명으로 식별할 수 있다.
다음으로 단계 S320에서, 식별된 발화자에 기초하여 노이즈 후보가 선정될 수 있다. 본 실시예에 따르면 앞서 설명된 바와 같이, 발화자마다 텍스트에서 반복 기록되는 문장의 패턴이 상이한 점이 이용됨으로써, 노이즈 후보의 선정이 보다 용이해질 수 있다.
지금까지 도 6을 참조하여, 텍스트에 대응되는 발화자를 식별하여 노이즈 후보를 선정하는 실시예를 설명하였다. 이하, 도 7을 참조하여 노이즈 후보를 선정하는 다른 실시예를 설명하기로 한다.
도 7을 참조하면 단계 S330에서, 텍스트에 포함된 문장의 유형이 정적 유형 및 동적 유형 중 어느 하나로 결정될 수 있다. 여기서, 정적 유형의 문장은 텍스트마다 반복적으로 포함되는 문장을 의미할 수 있고, 동적 유형의 문장은 정적 유형이 아닌 문장을 의미할 수 있다.
단계 S330과 관련된 몇몇 실시예에서, 기 저장된 복수의 저장 텍스트에 기초하여, 문장의 유형이 결정될 수 있다. 보다 구체적으로, 도 1에 도시된 데이터베이스(200)에 저장된 텍스트에 기초하여, 문장의 유형이 결정될 수 있다. 보다 구체적으로 설명하면, 텍스트에 포함된 문장 A가 복수의 저장 텍스트에 기준 비율 이상 포함되면, 문장 A가 정적 유형으로 결정될 수 있고, 기준 비율 미만 포함되면, 문장 A가 동적 유형으로 결정될 수 있다.
단계 S330과 관련된 다른 몇몇 실시예에서, 기 저장된 복수의 저장 텍스트 중 동일 유형의 발화자의 저장 텍스트에 기초하여, 문장의 유형이 결정될 수 있다. 보다 구체적으로, 텍스트에 포함된 문장 B가 질의자의 문장으로 식별되고, 복수의 저장 텍스트 중 질의자에 대응되는 문장에 문장 B가 기준 비율 이상 포함되면, 문장 B가 정적 유형으로 결정될 수 있고, 기준 비율 미만 포함되면, 문장 B가 정적 유형으로 결정될 수 있다.
단계 S330과 관련된 또 다른 몇몇 실시예에서, 기 저장된 복수의 저장 텍스트 중 동일 발화자의 저장 텍스트에 기초하여, 문장의 유형이 결정될 수 있다. 보다 구체적으로, 텍스트에 포함된 문장 C가 응답자 C의 문장으로 식별되고, 복수의 저장 텍스트 중 응답자 C에 대응되는 문장에 문장 C가 기준 비율 이상 포함되면, 문장 C가 정적 유형으로 결정될 수 있고, 기준 비율 미만 포함되면, 문장 C가 정적 유형으로 결정될 수 있다.
단계 S330과 관련하여 설명된 동작들을 수행하기 위해, 문장의 동일성 및 유사도 판단 모델이 이용될 수 있으며, 문장의 동일성 및 유사도 판단 모델에는 모든 공지된 기술이 적용될 수 있다. 경우에 따라서, 텍스트에 포함된 문장과 저장 텍스트에 포함된 문장이 동일해야만 문장이 저장 텍스트에 포함되는 것으로 결정될 수 있으나, 이에 한정되는 것은 아니고, 유사도가 기준치 이상인 경우 문장이 저장 텍스트에 포함되는 것으로 결정될 수도 있다.
정적 유형의 문장과 동적 유형의 문장의 구체적인 예시를 설명하기 위해 도 10을 참조하기로 한다. 도 10에 도시된 복수의 문장은 질의/응답형 텍스트의 일례이다. 도 10에 도시된 바와 같이, 정적 유형(10)의 문장과 동적 유형(20)의 문장이 텍스트에 포함될 수 있다. 정적 유형(10)의 문장에는 인사말(11) 및 형식적으로 반복되는 메뉴얼 안내(13)가 포함될 수 있으며, 상술한 정적 유형(10)의 문장은 몇몇 텍스트 분석 시 분석의 성능을 감소시키는 노이즈가 될 수 있다. 따라서, 추후 명세서의 기재에 의해 구체화될 본 개시의 몇몇 실시예에 따르면, 정적 유형(10)의 문장은 노이즈 후보로 선정되고, 텍스트의 용도에 따라 노이즈 후보에 포함된 문장 중 적어도 일부가 제거될 수 있다. 다시 도 7을 참조하여 설명하기로 한다.
다음으로 단계 S340에서, 정적 유형으로 결정된 문장이 노이즈 후보로 선정될 수 있다. 여기서, 정적 유형의 문장은 몇몇 텍스트 분석 시 분석의 성능을 감소시키는 노이즈가 될 수 있으므로, 노이즈 후보로 선정하는 것이 바람직할 수 있다.
다음으로 단계 S350에서, 동적 유형으로 결정된 문장 중 적어도 일부가 노이즈 후보로 선정될 수 있다. 일반적으로, 동적 유형의 문장은 텍스트 분석 시 분석의 대상이 되는 문장이 될 수 있으므로, 노이즈 후보로 선정되지 않는 것이 바람직할 수 있다. 그러나, 본 실시예와 같이, 동적 유형의 문장이라도, 분석의 대상이 되지 않는 문장의 경우 노이즈 후보로 선정될 수 있다. 예를 들어, 인적 사항을 나타내는 문장은 노이즈 후보로 선정될 수 있으며, 감정을 나타내는 문장도 노이즈 후보로 선정될 수 있다. 이외에도 분석의 대상이 되지 않는 문장의 경우 노이즈 후보로 선정될 수 있음이 이해될 수 있다.
다시 도 2를 참조하여 설명하기로 한다.
도 2를 참조하면 단계 S400에서, 텍스트의 용도에 기초하여, 노이즈 후보에 포함된 적어도 일부의 문장이 텍스트에서 제거될 수 있다. 본 실시예에 따르면, 텍스트의 용도에 적합한 노이즈 제거가 수행될 수 있다. 예를 들어, 검색 모델의 경우 노이즈를 제거하지 않는 것이 검색 성능 향상에 도움이 될 수 있으므로, 노이즈 후보에 포함된 문장을 텍스트에서 제거하지 않을 수 있다. 다른 예를 들어, 분류 모델의 경우 분류 성능을 높이기 위해 노이즈 후보에 포함된 일부의 문장만 텍스트에서 제거할 수 있다. 또 다른 예를 들어, 토픽 추출 모델, 클러스터링 모델, 이벤트 프로세싱 모델 및 추론 모델의 경우 성능을 높이기 위해 노이즈 후보에 포함된 문장을 모두 텍스트에서 제거할 수 있다. 또 다른 예를 들어, 감성 분석 모델의 경우, 노이즈 후보로 선정될 수 있는 감정을 나타내는 문장만이 텍스트에서 추출될 수도 있다.
단계 S400과 관련된 보다 구체적인 설명을 위해 도 8 및 도 9를 참조하여 설명하기로 한다.
도 8을 참조하면 단계 S410에서, 노이즈 후보에 포함된 문장의 제거 우선순위가 결정될 수 있고, 단계 S420에서 제거 우선 순위의 순서에 따라 용도에 대응되는 제거 범위만큼 노이즈 후보에 포함된 문장이 텍스트에서 제거될 수 있다. 도 8을 참조하여 설명된 실시예에 따르면, 노이즈 후보에 포함된 문장마다의 제거 우선 순위가 결정되고, 용도에 대응되는 범위만큼 제거 우선 순위의 순서에 따라 텍스트에서 문장이 제거됨으로써, 용도에 따라 노이즈 후보에 포함된 문장을 개별적으로 텍스트에서 제거할 수 있다.
도 9를 참조하면, 단계 S430에서 노이즈 후보에 포함된 문장이 미리 결정된 복수의 노이즈 레벨 중 어느 하나로 분류될 수 있고, 단계 S440에서 용도에 대응되는 노이즈 레벨에 포함된 문장이 텍스트에서 제거될 수 있다. 도 9를 참조하여 설명된 실시예에 따르면, 노이즈 후보에 포함된 문장을 노이즈 레벨에 따라 분류하고, 용도에 대응되는 노이즈 레벨에 포함된 문장이 텍스트에서 제거됨으로써, 용도에 따라 노이즈 레벨에 포함된 문장을 한 번에 텍스트에서 제거할 수 있다.
지금까지 도 2 내지 도 10을 참조하여 설명된 본 개시의 몇몇 실시예에 따른 텍스트의 노이즈 제거 방법은, 문장 단위의 노이즈를 텍스트에서 제거할 수 있다. 본 실시예에 따라, 문장 단위의 노이즈가 텍스트에서 제거됨으로써, 텍스트 분석 성능이 향상될 수 있다. 또한, 텍스트의 분석 용도에 대응되도록 노이즈 제거의 수준을 조절함으로써, 텍스트 분석 성능이 더욱 향상될 수도 있다.
이하, 도 11을 참조하여 본 개시의 몇몇 실시예에 따른 노이즈 제거 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(1500)를 보다 구체적으로 설명하기로 한다.
컴퓨팅 장치(1500)는 하나 이상의 프로세서(1510), 버스(1550), 통신 인터페이스(1570), 프로세서(1510)에 의하여 수행되는 컴퓨터 프로그램(1591)을 로드(load)하는 메모리(1530)와, 컴퓨터 프로그램(1591)을 저장하는 스토리지(1590)를 포함할 수 있다. 다만, 도 11에는 본 개시의 실시예와 관련 있는 구성 요소들 만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 11에 도시된 구성 요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(1510)는 컴퓨팅 장치(1500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(1510)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1500)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(1530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1530)는 본 개시의 실시예들에 따른 방법을 실행하기 위하여 스토리지(1590)로부터 하나 이상의 프로그램(1591)을 로드 할 수 있다. 메모리(1530)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
버스(1550)는 컴퓨팅 장치(1500)의 구성 요소 간 통신 기능을 제공한다. 버스(1550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(1570)는 컴퓨팅 장치(1500)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(1570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1570)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
몇몇 실시예들에 따르면, 통신 인터페이스(1570)는 생략될 수도 있다.
스토리지(1590)는 상기 하나 이상의 프로그램(1591)과 각종 데이터를 비임시적으로 저장할 수 있다.
스토리지(1590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(1591)은 메모리(1530)에 로드 될 때 프로세서(1510)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(1510)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.
위와 같은 경우, 컴퓨팅 장치(1500)를 통해 본 개시의 몇몇 실시예에 따른 노이즈 제거 장치가 구현될 수 있다.
지금까지 도 1 내지 도 11을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 명세서의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 도 1 내지 도 11을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 컴퓨팅 장치에 의해 수행되는 방법에 있어서,
    텍스트의 품질을 검사하는 단계;
    상기 검사의 결과에 기초하여, 상기 텍스트를 보정하는 단계;
    상기 보정된 텍스트에 포함된 문장 각각의 유형에 기초하여 노이즈 후보를 선정하되, 상기 노이즈 후보는 상기 텍스트에 포함된 문장 별로 선정되는 것인, 단계; 및
    상기 텍스트의 용도에 기초하여, 상기 노이즈 후보에 포함된 적어도 일부의 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  2. 제1 항에 있어서,
    상기 텍스트의 품질을 검사하는 단계는,
    미리 결정된 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  3. 제2 항에 있어서,
    상기 텍스트를 분류하는 단계는,
    상기 텍스트의 메타 데이터에 기초하여, 상기 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  4. 제2 항에 있어서,
    상기 텍스트를 분류하는 단계는,
    상기 텍스트의 손상도에 기초하여, 상기 복수의 품질 카테고리 중 어느 하나로 상기 텍스트를 분류하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  5. 제4 항에 있어서,
    상기 손상도는,
    상기 텍스트의 띄어쓰기 오류, 오탈자, 축약어 및 미지어 중 적어도 하나의 빈도에 기초하여 결정되는 것인,
    텍스트의 노이즈 제거 방법.
  6. 제2 항에 있어서,
    상기 텍스트를 보정하는 단계는,
    상기 분류된 품질 카테고리에 대응되도록 상기 텍스트를 보정하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  7. 제1 항에 있어서,
    상기 텍스트를 보정하는 단계는,
    상기 텍스트에 포함된 단어 별로 상기 텍스트를 보정하되, 상기 텍스트에 포함된 오탈자, 축약어 및 미지어 중 적어도 하나를 보정하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  8. 제7 항에 있어서,
    상기 텍스트를 보정하는 단계는,
    상기 텍스트에 포함된 문장 별로, 상기 단어 별로 보정된 텍스트를 보정하는 단계를 더 포함하는,
    텍스트의 노이즈 제거 방법.
  9. 제8 항에 있어서,
    상기 문장 별로 보정하는 단계는,
    상기 단어 별로 보정된 텍스트에 포함된 제1 문장이 기 학습된 언어 모델에 입력된 결과, 상기 제1 문장과 연관되어 출력된 복수의 구문 중 길이가 최대인 제1 구문을 추출하는 단계;
    상기 추출된 제1 구문을 이용하여, 상기 제1 문장에 대응되는 제2 문장을 생성하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  10. 제1 항에 있어서,
    상기 노이즈 후보를 선정하는 단계는,
    상기 보정된 텍스트에 포함된 문장 별로 대응되는 발화자를 식별하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  11. 제10 항에 있어서,
    상기 문장 별로 발화자를 식별하는 단계는,
    상기 보정된 텍스트의 문단에 포함된 복수의 문장 각각에 대응되는 발화자가 기준 비율 이상 제1 발화자로 결정되면, 상기 문단에 대응되는 발화자를 상기 제1 발화자로 식별하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  12. 제10 항에 있어서,
    상기 노이즈 후보를 선정하는 단계는,
    상기 식별된 발화자에 기초하여, 상기 노이즈 후보를 선정하는 단계를 더 포함하는,
    텍스트의 노이즈 제거 방법.
  13. 제1 항에 있어서,
    상기 노이즈 후보를 선정하는 단계는,
    상기 보정된 텍스트에 포함된 문장의 유형을 정적 유형 및 동적 유형 중 어느 하나로 결정하는 단계; 및
    상기 정적 유형으로 결정된 문장을 노이즈 후보로 선정하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  14. 제13 항에 있어서,
    상기 문장의 유형을 결정하는 단계는,
    기 저장된 복수의 저장 텍스트에 기초하여, 상기 문장의 유형을 결정하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  15. 제14 항에 있어서,
    상기 복수의 저장 텍스트에 기초하여, 상기 문장의 유형을 결정하는 단계는,
    상기 보정된 텍스트에 포함된 문장이 상기 복수의 저장 텍스트에 기준 비율 이상 포함되면, 상기 보정된 텍스트에 포함된 문장을 상기 정적 유형으로 결정하고, 상기 기준 비율 미만 포함되면, 상기 보정된 텍스트에 포함된 문장을 상기 동적 유형으로 결정하는,
    텍스트의 노이즈 제거 방법.
  16. 제13 항에 있어서,
    상기 노이즈 후보를 선정하는 단계는,
    상기 동적 유형으로 결정된 문장이 인적 사항을 나타내는 문장이면, 상기 노이즈 후보로 선정하는 단계를 더 포함하는,
    텍스트의 노이즈 제거 방법.
  17. 제13 항에 있어서,
    상기 노이즈 후보를 선정하는 단계는,
    상기 동적 유형으로 결정된 문장이 감정을 나타내는 문장이면, 상기 노이즈 후보로 선정하는 단계를 더 포함하는,
    텍스트의 노이즈 제거 방법.
  18. 제1 항에 있어서,
    상기 문장을 제거하는 단계는,
    상기 노이즈 후보에 포함된 문장의 제거 우선 순위를 결정하는 단계; 및
    상기 제거 우선 순위의 순서에 따라 상기 용도에 대응되는 제거 범위만큼 상기 노이즈 후보에 포함된 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  19. 제1 항에 있어서,
    상기 문장을 제거하는 단계는,
    상기 노이즈 후보에 포함된 문장을 미리 결정된 복수의 노이즈 레벨 중 어느 하나의 레벨로 분류하는 단계; 및
    상기 용도에 대응되는 노이즈 레벨에 포함된 문장을 상기 보정된 텍스트에서 제거하는 단계를 포함하는,
    텍스트의 노이즈 제거 방법.
  20. 프로세서;
    네트워크 인터페이스;
    메모리; 및
    상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
    상기 컴퓨터 프로그램은,
    텍스트의 품질을 검사하는 인스트럭션(Instruction);
    상기 검사의 결과에 기초하여, 상기 텍스트를 보정하는 인스트럭션;
    상기 보정된 텍스트에 포함된 문장 각각의 유형에 기초하여 노이즈 후보를 선정하되, 상기 노이즈 후보는 상기 텍스트에 포함된 문장 별로 선정되는 것인, 인스트럭션; 및
    상기 텍스트의 용도에 기초하여, 상기 노이즈 후보에 포함된 적어도 일부의 문장을 상기 보정된 텍스트에서 제거하는 인스트럭션을 포함하는,
    텍스트의 노이즈 제거 장치.
KR1020210069245A 2021-05-28 2021-05-28 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치 KR20220160947A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210069245A KR20220160947A (ko) 2021-05-28 2021-05-28 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치
US17/828,120 US11847407B2 (en) 2021-05-28 2022-05-31 Apparatus for removing text noise for text analysis and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210069245A KR20220160947A (ko) 2021-05-28 2021-05-28 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20220160947A true KR20220160947A (ko) 2022-12-06

Family

ID=84194023

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210069245A KR20220160947A (ko) 2021-05-28 2021-05-28 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치

Country Status (2)

Country Link
US (1) US11847407B2 (ko)
KR (1) KR20220160947A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101852116B1 (ko) 2016-11-15 2018-04-25 재단법인대구경북과학기술원 디노이징 장치 및 노이즈 제거 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19910621C2 (de) * 1999-03-10 2001-01-25 Thomas Poetter Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen
US7236932B1 (en) * 2000-09-12 2007-06-26 Avaya Technology Corp. Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems
JP4058928B2 (ja) 2001-09-28 2008-03-12 セイコーエプソン株式会社 文書表示システム、受信装置、文書表示方法、および記録媒体
US8150926B2 (en) * 2004-09-09 2012-04-03 Microsoft Corporation Organizing electronic mail messages into conversations
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
US10740474B1 (en) * 2015-12-28 2020-08-11 Ionic Security Inc. Systems and methods for generation of secure indexes for cryptographically-secure queries
US20180143970A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Contextual dictionary for transcription
US11386266B2 (en) * 2018-06-01 2022-07-12 Apple Inc. Text correction
US11366857B2 (en) * 2018-08-21 2022-06-21 Directly, Inc. Artificial intelligence communications agent
US11328175B2 (en) * 2018-09-12 2022-05-10 [24]7.ai, Inc. Method and apparatus for facilitating training of agents
KR20200073520A (ko) 2018-12-14 2020-06-24 (주)윕스 융합 콘텐츠 제공을 위한 시스템 및 방법
JP7404713B2 (ja) 2018-12-18 2023-12-26 富士電機株式会社 対応提示装置および対応提示方法
US11436505B2 (en) * 2019-10-17 2022-09-06 International Business Machines Corporation Data curation for corpus enrichment
JP6819976B1 (ja) 2019-12-27 2021-01-27 カラクリ株式会社 質問回答表示サーバ、質問回答表示方法及び質問回答表示プログラム
CN111950240A (zh) 2020-08-26 2020-11-17 北京高途云集教育科技有限公司 一种数据批改方法、装置及系统
US20220189333A1 (en) * 2020-12-11 2022-06-16 Iportfolio Inc. Method of generating book database for reading evaluation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101852116B1 (ko) 2016-11-15 2018-04-25 재단법인대구경북과학기술원 디노이징 장치 및 노이즈 제거 방법

Also Published As

Publication number Publication date
US11847407B2 (en) 2023-12-19
US20220382966A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
CN109033305B (zh) 问题回答方法、设备及计算机可读存储介质
US10991366B2 (en) Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query
US11282524B2 (en) Text-to-speech modeling
US7707027B2 (en) Identification and rejection of meaningless input during natural language classification
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN111709630A (zh) 语音质检方法、装置、设备及存储介质
CN111177351B (zh) 基于规则的自然语言表达意图获取方法、装置和系统
CN111177350A (zh) 智能语音机器人的话术形成方法、装置和系统
US20210191987A1 (en) Natural language dialogue system perturbation testing
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN111079432A (zh) 文本检测方法、装置、电子设备及存储介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN111563377A (zh) 数据增强方法与装置
JP2017058507A (ja) 音声認識装置、音声認識方法、プログラム
US11822589B2 (en) Method and system for performing summarization of text
JP5317061B2 (ja) 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
US20230267283A1 (en) System and method for automatic text anomaly detection
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
KR20220160947A (ko) 텍스트 분석을 위한 텍스트의 노이즈 제거 방법 및 그 장치
JP6743108B2 (ja) パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム
Chrystal et al. Text mining and classification of product reviews using structured support vector machine
Chung et al. A question detection algorithm for text analysis
CN113536790A (zh) 基于自然语言处理的模型训练方法及装置
US20240193365A1 (en) Method and system for insightful phrase extraction from text

Legal Events

Date Code Title Description
A201 Request for examination