KR102334236B1 - 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 - Google Patents

음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 Download PDF

Info

Publication number
KR102334236B1
KR102334236B1 KR1020210115922A KR20210115922A KR102334236B1 KR 102334236 B1 KR102334236 B1 KR 102334236B1 KR 1020210115922 A KR1020210115922 A KR 1020210115922A KR 20210115922 A KR20210115922 A KR 20210115922A KR 102334236 B1 KR102334236 B1 KR 102334236B1
Authority
KR
South Korea
Prior art keywords
data
word list
text data
extracting
keywords
Prior art date
Application number
KR1020210115922A
Other languages
English (en)
Inventor
차영래
전용진
박종원
김병수
Original Assignee
(주)네오플로우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)네오플로우 filed Critical (주)네오플로우
Priority to KR1020210115922A priority Critical patent/KR102334236B1/ko
Application granted granted Critical
Publication of KR102334236B1 publication Critical patent/KR102334236B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 불특정 매체를 통해 수집된 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에서 의미 있는 키워드를 추출하여 분류하여 활용하는 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용에 관한 것이다.

Description

음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 {Method and application of meaningful keyword extraction from speech-converted text data}
본 발명은 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용에 관한 것으로, 더욱 상세하게는 불특정 매체를 통해 수집된 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에서 의미 있는 키워드를 추출하여 분류하여 활용하는 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용에 관한 것이다.
키워드는 문장을 대표할 수 있는 단어나 구의 형태로써 비정형 텍스트 데이터의 의미를 파악하기 위한 중요한 요소이다.
키워드를 추출하기 위한 연구는 1950년 한스 피터 룬 교수가 고안한 TF-IDF(Term Frequency - Inverse Document Frequency)가 대표적이며, 이후에는 그래프 기반, 계층 구조 및 단어 임베딩을 통한 키워드 추출 방법들이 등장하였다.
최근에는 키워드를 활용하여 문서 군집화, 요약, 분류 및 검색 등과 같은 다양한 응용 분석이 수행되고 있기 때문에 키워드의 중요성은 더욱 커지고 있다.
키워드 구성에 따라 문서의 분류나 요약이 달라지게 되고 그 결과에 따라 사용자에게 얼마나 더 가치 있고 유용한 정보를 주는지가 결정된다.
또한, 텍스트 분석을 통해 원하는 정보를 빠르게 파악하고 의사결정에 도움을 주기 때문에 키워드 추출 및 응용분석에 대한 연구가 계속적으로 진행되고 있다.
한편, 키워드를 추출하기 위한 방법으로 TF-IDF 알고리즘뿐 아니라, 그래프 기반의 텍스트랭크 및 계층 구조 방법 등의 연구가 진행되어 왔고 최근에는 word2vec와 같은 단어 임베딩을 통해 유사한 의미를 군집하고 이를 통해 단어의 관계를 분석하는 방법 등이 연구되고 있다.
또한 키워드 추출의 품질을 높이기 위해 분석 알고리즘뿐 아니라 키워드 후보 단어의 가중치 조정, 불용어 처리 등 다양한 방법이 병행되고 있으며, 관련 선행기술로는 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 및 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법) 등이 있었다.
특히, 4차 산업혁명 중 AI 관련 기술의 활용성이 높아짐에 따라 이를 활용한 음성을 변환 한 텍스트 데이터서 입력부의 특정 키워드 및 불특정 키워드들을 비교하여 선택 빈도에 따른 데이터를 추출하고 활용하는 방법에 대한 기술 개발의 필요성이 증가하고 있다.
한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
한국등록특허 제10-1868936호 한국등록특허 제10-1672579호
본 발명의 일측면은 불특정 매체를 통해 수집된 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에서 의미 있는 키워드를 추출하여 분류하여 활용하는 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용을 제공한다.
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은, 음성 데이터를 수집하는 음성 데이터 수집부; 수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부; 변환된 상기 텍스트 데이터로부터 키워드를 추출하는 키워드 추출부; 및 추출된 키워드를 주제별로 분류하여 저장하는 키워드 관리부를 포함한다.
상기 키워드 추출부는,
미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 학습 키워드 추출부;
상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 반복 키워드 추출부;
상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 연관 키워드 추출부; 및
상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록을 키워드로 설정하는 키워드 설정부를 포함한다.
상기 연관 키워드 추출부는,
인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 한다.
상기 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은,
수집된 상기 음성 데이터에 비정상 데이터가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,
상기 비정상 데이터 도출부는,
수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함한다.
상술한 본 발명의 일측면에 따르면, 인공지능 기반의 다양한 서비스에 요구되는 키워드를 제공함으로써 AI를 이용한 음성 또는 마케팅 분석 기반 서비스 제공 시 해당 기술을 연계 사용하여 앱 또는 웹 환경의 서비스로 개발하여 제공할 수 있고, AI 챗봇을 통한 상담 내용 수집 시 정형, 비정형 키워드 추출하여 마케팅에 활용할 수 있으며, 불특정 TA(Text Analysis) 엔진과 연계하여 사용할 수 있다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 시스템의 개략적인 구성이 도시된 도면이다.
도 3은 키워드 추출부의 구체적인 구성이 도시된 블록도이다.
도 4는 본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법의 개략적인 흐름이 도시된 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템의 개략적인 구성이 도시된 블록도이고, 도 2는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템의 구성 및 기능을 설명하기 위한 개념도이다.
본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 음성 데이트를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에서 특정 단어, 반복 단어, 연관 단어 등의 키워드를 추출하는 것을 특징으로 한다. 또한, 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 입력 키워드 사전을 구축하여 특정 또는 불특정 키워드를 입력하고 관리하는 사전을 구현할 수 있다. 또한 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 주제별 키워드를 분류하여 추출하고, 키워드 추출 시 단어의 빈도수를 측정할 수 있고, 추출 키워드를 통계적으로 표현할 수 있으며, 정제된 키워드의 서비스 종류별로 배치 잡(Batch Job)을 실시할 수 있으며, 음성 변환을 위한 SST(Speech-to-Text), TTS(Text-to-Speech)를 이용할 수 있다.
이러한 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 사용자 단말기에 구현될 수 있다. 여기서, 사용자 단말기는 정보의 입출력이 가능하고 입력된 정보를 처리하는 전자장치로, 예컨대 PC, 태블릿 PC, 스마트폰 등과 같은 형태일 수 있다.
또한, 사용자 단말기에는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법이 구현된 소프트웨어(애플리케이션)이 미리 설치될 수 있으며, 사용자는 사용자 단말기에 설치된 소프트웨어(애플리케이션)을 이용하여 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는
구체적으로, 본 발명의 일 실시예에 따른 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템(100)은, 음성 데이터 수집부(110), 텍스트 변환부(120), 키워드 추출부(130) 및 키워드 관리부(140)를 포함한다.
음성 데이터 수집부(110)는 다양한 매체(예컨대 인터넷 등)를 통해 키워드를 추출할 음성 데이터를 수집한다. 또는 음성 데이터 수집부(110)는 사용자 단말기에 구비된 마이크를 통해 사용자로부터 입력되는 음성을 수집하여 음성 데이터로 변환할 수 있다.
텍스트 변환부(120)는 수집된 음성 데이터를 텍스트 데이터로 변환한다. 음성 변환을 위한 STT(Speech-to-Text) 또는 TTS(Text-to-Speech) 기술은 이미 공개되어 널리 사용되고 있는 기술이므로, 구체적인 변환 방법에 대한 내용은 생략하기로 한다.
키워드 추출부(130)는 변환된 텍스트 데이터로부터 키워드를 추출한다.
도 3은 이러한 키워드 추출부(130)의 구체적인 구성이 도시된 블록도이다.
도시된 바와 같이, 키워드 추출부(130)는 학습 키워드 추출부(131), 반복 키워드 추출부(132), 연관 키워드 추출부(133) 및 키워드 설정부(134)를 포함한다.
학습 키워드 추출부(131)는 미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출한다. 즉, 학습 키워드 추출부(131)는 음성 데이터가 변환된 텍스트 데이터에 포함된 단어들 중 미리 학습된 키워드 사전에 포함된 단어가 검색되는 경우, 이를 제1 단어목록으로 추출할 수 있다.
반복 키워드 추출부(132)는 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출한다. 예컨대, 반복 키워드 추출부(132)는 텍스트 데이터를 구성하는 단어들 중 미리 설정된 기준 횟수(예컨대 3회) 이상 동일한 단어가 반복되어 포함된 경우, 반복된 단어를 제2 단어목록으로 추출할 수 있다.
연관 키워드 추출부(133)는 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출한다.
즉, 연관 키워드 추출부(133)는 텍스트 데이터에 포함된 단어 중 제1 단어목록 또는 제2 단어목록에 포함되지 않았더라도, 제1 단어목록 및 제2 단어목록과 연관된 단어를 제3 단어목록으로 추출할 수 있다. 또는, 연관 키워드 추출부(133)는 제1 단어목록 및 제2 단어목록에 포함된 단어들을 분석하여 텍스트 데이터에 포함되지 않은 단어를 제3 단어목록으로 추출할 수도 있다.
이를 위해, 상기 연관 키워드 추출부는, 미리 학습된 인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 한다.
도 5는 연관 키워드 추출부에서 연관 키워드를 추출하는 구체적인 일 예가 도시된 도면이다.
연관 키워드 추출부(133)는 제1 단어목록을 구성하는 단어들과, 제2 단어목록을 구성하는 단어들을 나열하고, 나열된 전체 단어를 소정 단어 단위로 그룹화하는 것을 특징으로 한다.
즉, 연관 키워드 추출부(133)는 서로 연속하는 세 단어를 하나의 그룹으로 분류하며, 예컨대 가장 첫 번째 단어부터 세 번째 단어까지를 제1 그룹(G1)으로 분류하고, 두 번째 단어부터 네 번째 단어까지를 제2 그룹(G2)으로 분류하며, 세 번째 단어부터 다섯 번째 단어까지를 제3 그룹(G3)으로 분류한다. 이와 같은 방법으로, 연관 키워드 추출부(133)는 나열된 단어들을 소정 개수의 단어들이 연속적으로 나열된 복수의 그룹으로 분할할 수 있으며, 따라서 나열된 어느 하나의 단어는 적어도 둘 이상의 그룹으로 분류될 수 있다.
이후, 연관 키워드 추출부(133)는 각각의 그룹에 포함된 복수의 단어를 기준 단어와 주변 단어로 분류할 수 있다.
도시된 실시예에서, 연관 키워드 추출부(133)는 제1, 2, 3 그룹에 포함된 단어 중 가장 가운데 있는 단어(음영 처리된 영역)를 기준 단어로 설정하며, 양 옆에 있는 단어를 주변 단어로 설정할 수 있다.
이후, 연관 키워드 추출부(133)는 각각의 기준 단어 및 주변 단어를 벡터화한 후, 주변 단어에 대한 벡터값 또는 벡터 행렬을 인공 신경망의 입력층에 입력할 데이터셋으로 설정하여 인공 신경망의 출력값에 기초하여 특정 단어를 제3 단어목록에 포함시킬 수 있다.
즉, 연관 키워드 추출부(133)는 인공 신경망이 서로 빈번한 조합을 갖는 단어들을 유추하기 위해, 기준 단어 및 주변 단어를 인공 신경망의 입력값으로 입력하여, 에이 대한 출력값을 이용하여 제1 단어목록 및 제2 단어목록에 포함된 단어들과 연관된 단어를 제3 단어목록에 포함시키는 것을 특징으로 한다.
키워드 설정부(134)는 상술한 과정을 통해 추출된 제1 단어목록, 제2 단어목록 및 제3 단어목록을 최종적인 키워드로 설정한다.
이후, 키워드 관리부(140)는 추출된 키워드를 주제별로 분류하여 저장한다. 즉, 키워드 관리부(140)는 추출된 키워드를 AI를 이용한 음성 또는 마케팅 분석 기반 서비스 제공 시 해당 기술을 연계 사용하여 앱 또는 웹 환경의 서비스로 개발하여 제공할 수 있도록, 정제 된 키워드를 서비스 종류별로 분류하여 저장할 수 있다.
이에 따라, 본 발명의 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템에 따라 추출된 키워드는 인공지능 챗봇을 통한 상담 내용 수집 시 정형/비정형 키워드 추출하여 사용자 맞춤형 마케팅에 활용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법의 개략적인 흐름이 도시된 도면이다.
본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법은 사용자 단말기에 의해 수행되며, 이를 위해 상술한 바와 같이 사용자 단말기는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법이 구현된 소프트웨어(애플리케이션)이 미리 설치될 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법은 음성 데이터를 수집하는 단계(S10), 수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 단계(S20), 변환된 상기 텍스트 데이터로부터 키워드를 추출하는 단계(S30) 및 추출된 키워드를 주제별로 분류하여 저장하는 단계(S40)를 포함한다.
여기서, 변환된 상기 텍스트 데이터로부터 키워드를 추출하는 단계(S30)는 미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 단계, 상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 단계, 상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 단계 및 상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록을 키워드로 설정하는 단계를 포함한다.
이러한 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법을 구성하는 각 단계는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템 부분에서 설명하였으므로, 반복되는 설명은 생략하기로 한다.
몇몇 다른 실시예에서, 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템(100)은 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함하는 빅데이터 분석 기반의 비정상 데이터 도출 시스템(설명의 편의상 도면에는 도시하지 않음)을 이용하여 사용자 단말로부터 수신된 응답 데이터에 악의적으로 목적으로 생성된 데이터가 포함되어 있는지를 자동으로 판단할 수 있다.
여기서, 데이터 수집부는 수신된 평가 데이터를 의미를 갖는 형태소별로 구분한 형태소 분석 데이터를 생성하고, 상기 형태소 분석 데이터를 저장하는 분산 파일 시스템; 상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및 상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함할 수 있다.
그리고, 상기 통계 분석부는, 상기 통계 분석부는 상기 연도별 출현건수(instance frequencies) 및 단어-단어간 동시 발생건수에 기초하여 단어 별 발생건수 증가율을 산출할 수 있다.
또한, 상기 통계 분석부는, 상기 연도별 출현건수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산 출할 수 있다.
또한, 상기 통계 분석부는, 상기 단어-단어간 동시발생건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 악성코드로 도출할 수 있다.
한편, 상기 데이터 수집 모듈은, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.
이에 따라, 본 발명에 따른 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 상술한 바와 같은 구성을 포함하는 비정상 데이터 도출 시스템을 통한 빅데이터 분석을 통해 악의적인 목적으로 작성된 응답 데이터를 사전에 필터링함으로써 챗봇 서비스의 신뢰성을 향상시킬 수 있다.
이와 같은, 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법을 제공하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 음성 데이터 수집부
120: 텍스트 변환부
130: 키워드 추출부
140: 키워드 관리부

Claims (4)

  1. 음성 데이터를 수집하는 음성 데이터 수집부;
    수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부;
    변환된 상기 텍스트 데이터로부터 키워드를 추출하는 키워드 추출부; 및
    추출된 키워드를 주제별로 분류하여 저장하는 키워드 관리부를 포함하는, 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템에 있어서,
    상기 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은,
    수집된 상기 음성 데이터에 비정상 데이터가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,
    상기 비정상 데이터 도출부는,
    수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
    수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
    데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
    형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함하고,
    상기 키워드 추출부는,
    미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 학습 키워드 추출부;
    상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 반복 키워드 추출부;
    상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 연관 키워드 추출부; 및
    상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록을 키워드로 설정하는 키워드 설정부를 포함하는, 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 연관 키워드 추출부는,
    인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 하는, 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템.
  4. 삭제
KR1020210115922A 2021-08-31 2021-08-31 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 KR102334236B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210115922A KR102334236B1 (ko) 2021-08-31 2021-08-31 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210115922A KR102334236B1 (ko) 2021-08-31 2021-08-31 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용

Publications (1)

Publication Number Publication Date
KR102334236B1 true KR102334236B1 (ko) 2021-12-02

Family

ID=78867119

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210115922A KR102334236B1 (ko) 2021-08-31 2021-08-31 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용

Country Status (1)

Country Link
KR (1) KR102334236B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102442126B1 (ko) * 2022-04-13 2022-09-08 (주)데이타프로텍 디스크 관리 시스템
KR102513420B1 (ko) * 2022-12-21 2023-03-24 주식회사 에이아이노미스 사용자 의도 분석 기반 인공지능 모델 추천 플랫폼 제공 방법, 장치 및 시스템
US11640493B1 (en) 2022-06-03 2023-05-02 Actionpower Corp. Method for dialogue summarization with word graphs
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150057322A (ko) * 2013-11-19 2015-05-28 한국과학기술정보연구원 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
KR101672579B1 (ko) 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
KR20180013820A (ko) * 2017-08-07 2018-02-07 (주)씨제이텔레닉스 음성 분석을 통한 고객 유형 분석 서비스 시스템 및 방법
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR20200021162A (ko) * 2018-08-20 2020-02-28 주식회사 부뜰정보시스템 상담원의 상담내용을 기반으로 상담 챗봇을 학습하는 시스템 및 방법
US20200175972A1 (en) * 2018-11-29 2020-06-04 International Business Machines Corporation Voice message categorization and tagging
KR20210048382A (ko) * 2019-10-23 2021-05-03 엘지전자 주식회사 음성 분석 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672579B1 (ko) 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR20150057322A (ko) * 2013-11-19 2015-05-28 한국과학기술정보연구원 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
KR20180013820A (ko) * 2017-08-07 2018-02-07 (주)씨제이텔레닉스 음성 분석을 통한 고객 유형 분석 서비스 시스템 및 방법
KR20200021162A (ko) * 2018-08-20 2020-02-28 주식회사 부뜰정보시스템 상담원의 상담내용을 기반으로 상담 챗봇을 학습하는 시스템 및 방법
US20200175972A1 (en) * 2018-11-29 2020-06-04 International Business Machines Corporation Voice message categorization and tagging
KR20210048382A (ko) * 2019-10-23 2021-05-03 엘지전자 주식회사 음성 분석 방법 및 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102442126B1 (ko) * 2022-04-13 2022-09-08 (주)데이타프로텍 디스크 관리 시스템
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법
KR102656015B1 (ko) 2022-05-30 2024-04-09 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법
US11640493B1 (en) 2022-06-03 2023-05-02 Actionpower Corp. Method for dialogue summarization with word graphs
KR102513420B1 (ko) * 2022-12-21 2023-03-24 주식회사 에이아이노미스 사용자 의도 분석 기반 인공지능 모델 추천 플랫폼 제공 방법, 장치 및 시스템

Similar Documents

Publication Publication Date Title
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
Chen et al. A practical guide to big data research in psychology.
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
WO2017097231A1 (zh) 话题处理方法及装置
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN107506472B (zh) 一种学生浏览网页分类方法
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
Dyvak et al. Recognition of Relevance of Web Resource Content Based on Analysis of Semantic Components
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115098706A (zh) 一种网络信息提取方法及装置
KR20210097408A (ko) 유해 웹사이트 정보의 업데이트 장치 및 이에 의한 방법
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Balaguer et al. CatSent: a Catalan sentiment analysis website
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
Müller-Budack et al. Finding person relations in image data of news collections in the internet archive
Hürriyetoǧlu et al. Relevancer: Finding and labeling relevant information in tweet collections
CN115329173A (zh) 一种基于舆情监控的企业信用确定方法及装置
KR102474042B1 (ko) 데이터 마이닝을 이용한 질병 연관성 분석 방법
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant