KR102334255B1 - AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 - Google Patents

AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 Download PDF

Info

Publication number
KR102334255B1
KR102334255B1 KR1020210115929A KR20210115929A KR102334255B1 KR 102334255 B1 KR102334255 B1 KR 102334255B1 KR 1020210115929 A KR1020210115929 A KR 1020210115929A KR 20210115929 A KR20210115929 A KR 20210115929A KR 102334255 B1 KR102334255 B1 KR 102334255B1
Authority
KR
South Korea
Prior art keywords
data
text
word list
text data
unit
Prior art date
Application number
KR1020210115929A
Other languages
English (en)
Inventor
차영래
전용진
박종원
김병수
Original Assignee
(주)네오플로우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)네오플로우 filed Critical (주)네오플로우
Priority to KR1020210115929A priority Critical patent/KR102334255B1/ko
Application granted granted Critical
Publication of KR102334255B1 publication Critical patent/KR102334255B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Abstract

본 발명은 인공 지능을 이용하여 음성 서비스 또는 솔루션에서 수집되는 정보를 체계적으로 관리하는 플랫폼을 제공할 수 있는 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법에 관한 것이다.

Description

AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 {Text data collection platform construction and integrated management method for AI-based voice service}
본 발명은 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법에 관한 것으로, 더욱 상세하게는 인공 지능을 이용하여 음성 서비스 또는 솔루션에서 수집되는 정보를 체계적으로 관리하는 플랫폼을 제공할 수 있는 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법에 관한 것이다.
키워드는 문장을 대표할 수 있는 단어나 구의 형태로써 비정형 텍스트 데이터의 의미를 파악하기 위한 중요한 요소이다.
키워드를 추출하기 위한 연구는 1950년 한스 피터 룬 교수가 고안한 TF-IDF(Term Frequency - Inverse Document Frequency)가 대표적이며, 이후에는 그래프 기반, 계층 구조 및 단어 임베딩을 통한 키워드 추출 방법들이 등장하였다.
최근에는 키워드를 활용하여 문서 군집화, 요약, 분류 및 검색 등과 같은 다양한 응용 분석이 수행되고 있기 때문에 키워드의 중요성은 더욱 커지고 있다.
키워드 구성에 따라 문서의 분류나 요약이 달라지게 되고 그 결과에 따라 사용자에게 얼마나 더 가치 있고 유용한 정보를 주는지가 결정된다.
또한, 텍스트 분석을 통해 원하는 정보를 빠르게 파악하고 의사결정에 도움을 주기 때문에 키워드 추출 및 응용분석에 대한 연구가 계속적으로 진행되고 있다.
한편, 키워드를 추출하기 위한 방법으로 TF-IDF 알고리즘뿐 아니라, 그래프 기반의 텍스트랭크 및 계층 구조 방법 등의 연구가 진행되어 왔고 최근에는 word2vec와 같은 단어 임베딩을 통해 유사한 의미를 군집하고 이를 통해 단어의 관계를 분석하는 방법 등이 연구되고 있다.
또한 키워드 추출의 품질을 높이기 위해 분석 알고리즘뿐 아니라 키워드 후보 단어의 가중치 조정, 불용어 처리 등 다양한 방법이 병행되고 있으며, 관련 선행기술로는 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 및 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법) 등이 있었다.
최근에는 딥 러닝 등의 기계학습 알고리즘, 빅데이터 처리기술, 컴퓨팅 파워 및 네트워크 기술의 급격한 발전으로 인해 단순 기계를 제어하는 것을 벗어나, 법률, 의료, 바이오 등의 전문 서비스업뿐만 아니라 고객 상담 및 고객지원을 위한 고객응대 업무에도 인공지능 기술을 적용하여 활용되고 있다. 이에 관련 서비스 및 솔루션 등을 쉽게 연계하고 체계적으로 통합 관리할 수 있는 기술(모듈 조합형 및 모듈화 관리 기능)의 필요성이 증대되고 있다.
한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
한국등록특허 제10-1868936호 한국등록특허 제10-1672579호
본 발명의 일측면은 인공 지능을 이용하여 음성 서비스 또는 솔루션에서 수집되는 정보를 체계적으로 관리하는 플랫폼을 제공할 수 있는 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템 및 이 시스템을 이용한 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법을 제공한다.
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은, 사용자 단말로부터 음성 데이터를 수집하는 음성 데이터 수집부; 수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부; 변환된 상기 텍스트 데이터가 갖는 의미를 추정하고, 추정된 의미에 기초하여 상기 텍스트 데이터에 대한 답변 데이터를 생성하는 텍스트 분석부; 및 상기 텍스트 분석부에 의해 생성된 답변 데이터를 상기 사용자 단말로 전송하는 챗봇 서비스 관리부를 포함한다.
상기 텍스트 분석부는,
미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 학습 키워드 추출부;
상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 반복 키워드 추출부;
상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 연관 키워드 추출부; 및
상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록에 포함된 단어를 기초로 상기 답변 데이터를 생성하는 답변 생성부를 포함한다.
상기 연관 키워드 추출부는,
인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 한다.
상기 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은,
수집된 상기 음성 데이터에 비정상 데이터가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,
상기 비정상 데이터 도출부는,
수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함한다.
상술한 본 발명의 일측면에 따르면, 국내 대기업 위주로 제공되는 AI 서비스를 중소기업이 쉽게 이용할 수 있는 시장을 형성할 수 있으며, 중소기업 및 창업기업이 CS 업무를 효율화할 수 있는 클라우드 기반의 Paas, SaaS 유틸리티 컴퓨팅 서비스를 확대 제공 가능하다.
또한 본 발명을 통해 비대면 고객 응대 업무 증가에 따른 해결책을 제시할 수 있으며, 관련 시장 진출이 가능하다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템의 개략적인 구성이 도시된 도면이다.
도 3는 도 1에 도시된 텍스트 분석부의 구체적인 구성이 도시된 도면이다.
도 4는 본 발명의 일 실시예에 따른 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법의 개략적인 흐름이 도시된 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템의 개략적인 구성이 도시된 블록도이고, 도 2는 본 발명에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템의 구성 및 기능을 설명하기 위한 개념도이다.
본 발명에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은 인공지능을 이용하여 고객 상담 및 고객 지원을 위한 챗봇 서비스를 제공하기 위한 기술로, 사용자 단말로부터 수신되는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에서 특정 단어, 반복 단어, 연관 단어 등의 키워드를 추출하는 것을 특징으로 한다. 또한, 본 발명에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은 입력 키워드 사전을 구축하여 특정 또는 불특정 키워드를 입력하고 관리하는 사전을 구현할 수 있다. 또한 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 주제별 키워드를 분류하여 추출하고, 키워드 추출 시 단어의 빈도수를 측정할 수 있고, 추출 키워드를 통계적으로 표현할 수 있으며, 정제된 키워드의 서비스 종류별로 배치 잡(Batch Job)을 실시할 수 있으며, 음성 변환을 위한 SST(Speech-to-Text), TTS(Text-to-Speech)를 이용할 수 있다.
이러한 본 발명에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은 챗봇 서비스 제공 단말기에 구현될 수 있다. 여기서, 챗봇 서비스 제공 단말기는 정보의 입출력이 가능하고 입력된 정보를 처리하는 전자장치로, 예컨대 PC, 태블릿 PC, 스마트폰, 서버 등과 같은 형태일 수 있다.
또한, 챗봇 서비스 제공 단말기에는 본 발명에 따른 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법이 구현된 소프트웨어(애플리케이션)이 미리 설치될 수 있으며, 사용자는 사용자 단말기에 설치된 소프트웨어(애플리케이션)을 이용하여 본 발명에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템을 이용한 챗봇 서비스를 사용자에게 제공할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템(100)은, 음성 데이터 수집부(110), 텍스트 변환부(120), 텍스트 분석부(130) 및 챗봇 서비스 관리부(140)를 포함한다.
음성 데이터 수집부(110)는 다양한 매체(예컨대 인터넷 등)를 통해 키워드를 추출할 음성 데이터를 수집한다. 또는 음성 데이터 수집부(110)는 사용자 단말기에 구비된 마이크를 통해 사용자로부터 입력되는 음성을 수집하여 음성 데이터로 변환할 수 있다.
텍스트 변환부(120)는 수집된 음성 데이터를 텍스트 데이터로 변환한다. 음성 변환을 위한 STT(Speech-to-Text) 또는 TTS(Text-to-Speech) 기술은 이미 공개되어 널리 사용되고 있는 기술이므로, 구체적인 변환 방법에 대한 내용은 생략하기로 한다.
텍스트 분석부(130)는 변환된 텍스트 데이터로부터 키워드를 추출한다.
도 3은 이러한 텍스트 분석부(130)의 구체적인 구성이 도시된 블록도이다.
도시된 바와 같이, 텍스트 분석부(130)는 학습 키워드 추출부(131), 반복 키워드 추출부(132), 연관 키워드 추출부(133) 및 답변 생성부(134)를 포함한다.
학습 키워드 추출부(131)는 미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출한다. 즉, 학습 키워드 추출부(131)는 음성 데이터가 변환된 텍스트 데이터에 포함된 단어들 중 미리 학습된 키워드 사전에 포함된 단어가 검색되는 경우, 이를 제1 단어목록으로 추출할 수 있다.
반복 키워드 추출부(132)는 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출한다. 예컨대, 반복 키워드 추출부(132)는 텍스트 데이터를 구성하는 단어들 중 미리 설정된 기준 횟수(예컨대 3회) 이상 동일한 단어가 반복되어 포함된 경우, 반복된 단어를 제2 단어목록으로 추출할 수 있다.
연관 키워드 추출부(133)는 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출한다.
즉, 연관 키워드 추출부(133)는 텍스트 데이터에 포함된 단어 중 제1 단어목록 또는 제2 단어목록에 포함되지 않았더라도, 제1 단어목록 및 제2 단어목록과 연관된 단어를 제3 단어목록으로 추출할 수 있다. 또는, 연관 키워드 추출부(133)는 제1 단어목록 및 제2 단어목록에 포함된 단어들을 분석하여 텍스트 데이터에 포함되지 않은 단어를 제3 단어목록으로 추출할 수도 있다.
이를 위해, 상기 연관 키워드 추출부는, 미리 학습된 인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 한다.
도 5는 연관 키워드 추출부에서 연관 키워드를 추출하는 구체적인 일 예가 도시된 도면이다.
연관 키워드 추출부(133)는 제1 단어목록을 구성하는 단어들과, 제2 단어목록을 구성하는 단어들을 나열하고, 나열된 전체 단어를 소정 단어 단위로 그룹화하는 것을 특징으로 한다.
즉, 연관 키워드 추출부(133)는 서로 연속하는 세 단어를 하나의 그룹으로 분류하며, 예컨대 가장 첫 번째 단어부터 세 번째 단어까지를 제1 그룹(G1)으로 분류하고, 두 번째 단어부터 네 번째 단어까지를 제2 그룹(G2)으로 분류하며, 세 번째 단어부터 다섯 번째 단어까지를 제3 그룹(G3)으로 분류한다. 이와 같은 방법으로, 연관 키워드 추출부(133)는 나열된 단어들을 소정 개수의 단어들이 연속적으로 나열된 복수의 그룹으로 분할할 수 있으며, 따라서 나열된 어느 하나의 단어는 적어도 둘 이상의 그룹으로 분류될 수 있다.
이후, 연관 키워드 추출부(133)는 각각의 그룹에 포함된 복수의 단어를 기준 단어와 주변 단어로 분류할 수 있다.
도시된 실시예에서, 연관 키워드 추출부(133)는 제1, 2, 3 그룹에 포함된 단어 중 가장 가운데 있는 단어(음영 처리된 영역)를 기준 단어로 설정하며, 양 옆에 있는 단어를 주변 단어로 설정할 수 있다.
이후, 연관 키워드 추출부(133)는 각각의 기준 단어 및 주변 단어를 벡터화한 후, 주변 단어에 대한 벡터값 또는 벡터 행렬을 인공 신경망의 입력층에 입력할 데이터셋으로 설정하여 인공 신경망의 출력값에 기초하여 특정 단어를 제3 단어목록에 포함시킬 수 있다.
즉, 연관 키워드 추출부(133)는 인공 신경망이 서로 빈번한 조합을 갖는 단어들을 유추하기 위해, 기준 단어 및 주변 단어를 인공 신경망의 입력값으로 입력하여, 에이 대한 출력값을 이용하여 제1 단어목록 및 제2 단어목록에 포함된 단어들과 연관된 단어를 제3 단어목록에 포함시키는 것을 특징으로 한다.
답변 생성부(134)는 상술한 과정을 통해 추출된 제1 단어목록, 제2 단어목록 및 제3 단어목록을 이용하여 텍스트 데이터(질의)에 대한 답변 데이터를 생성한다.
이후, 챗봇 서비스 관리부(140)는 답변 생성부(134)에 의해 생성된 답변데이터를 사용자 단말의 챗봇 플랫폼을 통해 전송할 수 있다. 이를 위해, 챗봇 서비스 관리부(140)는 챗봇 서비스 및 인터페이스를 관리하고, 모듈화를 위한 연계 라이브러리 제공하며 모듈화 된 기능을 통합 구성하여 관리할 수 있다.
이에 따라, 본 발명의 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템을 통해 인공지능 챗봇을 통한 상담 내용 수집 시 정형/비정형 키워드 추출하여 사용자 맞춤형 마케팅에 활용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법의 개략적인 흐름이 도시된 도면이다.
본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법은 사용자 단말기에 의해 수행되며, 이를 위해 상술한 바와 같이 사용자 단말기는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법이 구현된 소프트웨어(애플리케이션)이 미리 설치될 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법은 음성 데이터를 수집하는 단계(S10), 수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 단계(S20), 변환된 상기 텍스트 데이터로가 갖는 의미를 추정하는 단계(S30) 및 추정된 의미에 기초하여 텍스트 데이터에 대한 답변 데이터를 생성하는 단계(S40)를 포함한다.
여기서, 변환된 상기 텍스트 데이터로부터 키워드를 추출하는 단계(S30)는 미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 단계, 상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 단계, 상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 단계 및 상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록을 기초로 답변 데이터를 생성하는 단계를 포함한다.
이후, 챗봇 서비스 관리부(140)는 생성된 답변 데이터를 챗봇 플랫폼을 통해 사용자 단말로 전송함으로써, 사용자 단말로부터 수신된 질의에 대한 답변을 제공하는 고객 상담 및 고객지원 서비스를 제공할 수 있다.
이러한 본 발명에 따른 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법을 구성하는 각 단계는 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템 부분에서 설명하였으므로, 반복되는 설명은 생략하기로 한다.
몇몇 다른 실시예에서, 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템(100)은 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함하는 빅데이터 분석 기반의 비정상 데이터 도출 시스템(설명의 편의상 도면에는 도시하지 않음)을 이용하여 사용자 단말에 수집되어 변환된 텍스트 데이터에 부적절한 단어가 포함된 텍스트 데이터가 있는지를 자동으로 판단할 수 있다.
여기서, 데이터 수집부는 수신된 평가 데이터를 의미를 갖는 형태소별로 구분한 형태소 분석 데이터를 생성하고, 상기 형태소 분석 데이터를 저장하는 분산 파일 시스템; 상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및 상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함할 수 있다.
그리고, 상기 통계 분석부는, 상기 통계 분석부는 상기 연도별 출현건수(instance frequencies) 및 단어-단어간 동시 발생건수에 기초하여 단어 별 발생건수 증가율을 산출할 수 있다.
또한, 상기 통계 분석부는, 상기 연도별 출현건수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산 출할 수 있다.
또한, 상기 통계 분석부는, 상기 단어-단어간 동시발생건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 비정상 데이터로 도출할 수 있다.
한편, 상기 데이터 수집 모듈은, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.
이에 따라, 본 발명에 따른 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 시스템은 상술한 바와 같은 구성을 포함하는 비정상 데이터 도출 시스템을 통한 빅데이터 분석을 통해 부적절한 단어가 포함된 텍스트 데이터를 사전에 필터링함으로써 분석 결과의 신뢰성을 향상시킬 수 있다.
이와 같은, 본 발명에 따른 음성변환 텍스트 데이터에서 의미 있는 키워드를 추출하는 방법을 제공하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 음성 데이터 수집부
120: 텍스트 변환부
130: 키워드 추출부
140: 키워드 관리부

Claims (4)

  1. 사용자 단말로부터 음성 데이터를 수집하는 음성 데이터 수집부;
    수집된 상기 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부;
    변환된 상기 텍스트 데이터가 갖는 의미를 추정하고, 추정된 의미에 기초하여 상기 텍스트 데이터에 대한 답변 데이터를 생성하는 텍스트 분석부; 및
    상기 텍스트 분석부에 의해 생성된 답변 데이터를 상기 사용자 단말로 전송하는 챗봇 서비스 관리부를 포함하는, 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템에 있어서,
    상기 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템은,
    수집된 상기 음성 데이터에 비정상 데이터가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,
    상기 비정상 데이터 도출부는,
    수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
    수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
    데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
    형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 악성코드를 출력하는 데이터 분석 모듈;을 포함하되,
    상기 텍스트 분석부는,
    미리 저장된 키워드 사전을 이용하여 상기 텍스트 데이터로부터 제1 단어목록을 추출하는 학습 키워드 추출부;
    상기 텍스트 데이터에 포함된 반복되는 단어를 제2 단어목록으로 추출하는 반복 키워드 추출부;
    상기 제1 단어목록 및 상기 제2 단어목록에 기초하여 제3 단어목록을 추출하는 연관 키워드 추출부; 및
    상기 제1 단어목록, 상기 제2 단어목록 및 상기 제3 단어목록에 포함된 단어를 기초로 상기 답변 데이터를 생성하는 답변 생성부를 포함하는, 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 연관 키워드 추출부는,
    인공 신경망을 이용하여 상기 제1 단어목록 및 상기 제2 단어목록에 포함된 서로 다른 단어들이 갖는 의미를 추정하는 것을 특징으로 하는, 인공지능 기반 음성서비스의 텍스트 데이터 수집 및 관리 시스템.
  4. 삭제
KR1020210115929A 2021-08-31 2021-08-31 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 KR102334255B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210115929A KR102334255B1 (ko) 2021-08-31 2021-08-31 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210115929A KR102334255B1 (ko) 2021-08-31 2021-08-31 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법

Publications (1)

Publication Number Publication Date
KR102334255B1 true KR102334255B1 (ko) 2021-12-02

Family

ID=78867116

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210115929A KR102334255B1 (ko) 2021-08-31 2021-08-31 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법

Country Status (1)

Country Link
KR (1) KR102334255B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483422B1 (ko) * 2022-04-20 2022-12-30 주식회사 정데이타시스템 클라우드 서비스 융복합 시스템
KR102513420B1 (ko) * 2022-12-21 2023-03-24 주식회사 에이아이노미스 사용자 의도 분석 기반 인공지능 모델 추천 플랫폼 제공 방법, 장치 및 시스템
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090004216A (ko) * 2007-07-06 2009-01-12 주식회사 예스피치 음성 인식에 대한 통계적 의미 분류 시스템 및 방법
KR20150057322A (ko) * 2013-11-19 2015-05-28 한국과학기술정보연구원 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
KR101672579B1 (ko) 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR20180126357A (ko) * 2017-05-17 2018-11-27 주식회사 에이아이리소프트 챗봇의 대화처리장치 및 그 방법
KR20190016653A (ko) * 2017-08-09 2019-02-19 현철우 지능형 상담 서비스 제공 방법 및 시스템
KR102041081B1 (ko) * 2019-05-10 2019-11-06 안경만 데이터 연동형 erp 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090004216A (ko) * 2007-07-06 2009-01-12 주식회사 예스피치 음성 인식에 대한 통계적 의미 분류 시스템 및 방법
KR101672579B1 (ko) 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR20150057322A (ko) * 2013-11-19 2015-05-28 한국과학기술정보연구원 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
KR20180126357A (ko) * 2017-05-17 2018-11-27 주식회사 에이아이리소프트 챗봇의 대화처리장치 및 그 방법
KR20190016653A (ko) * 2017-08-09 2019-02-19 현철우 지능형 상담 서비스 제공 방법 및 시스템
KR102041081B1 (ko) * 2019-05-10 2019-11-06 안경만 데이터 연동형 erp 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483422B1 (ko) * 2022-04-20 2022-12-30 주식회사 정데이타시스템 클라우드 서비스 융복합 시스템
KR102513420B1 (ko) * 2022-12-21 2023-03-24 주식회사 에이아이노미스 사용자 의도 분석 기반 인공지능 모델 추천 플랫폼 제공 방법, 장치 및 시스템
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统
CN116978384B (zh) * 2023-09-25 2024-01-02 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Similar Documents

Publication Publication Date Title
US11379548B2 (en) Analyzing concepts over time
KR102334255B1 (ko) AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
US11514235B2 (en) Information extraction from open-ended schema-less tables
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
US11017301B2 (en) Obtaining and using a distributed representation of concepts as vectors
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
US11188819B2 (en) Entity model establishment
Dyvak et al. Recognition of Relevance of Web Resource Content Based on Analysis of Semantic Components
JP2007219947A (ja) 因果関係知識抽出装置及びプログラム
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
US20190034410A1 (en) Unsupervised Template Extraction
US11501071B2 (en) Word and image relationships in combined vector space
Swezey et al. Automatic detection of news articles of interest to regional communities
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
Devika et al. A Novel Method to Detect Public Health in Online Social Network Using Graph-based Algorithm
KR20230000421A (ko) 특허 문헌을 이용한 신 기술요소 추출 방법 및 장치와 이를 이용한 신 기술요소 추출 시스템
de Carvalho et al. Efficient Neural-based patent document segmentation with Term Order Probabilities.
KR20170008616A (ko) 개체간 다중 경로 관계 정보 제공 장치 및 방법
CN117972477A (zh) 文本扩充模型训练方法、文本扩充方法、装置、设备
CN118052205A (zh) 基于技术情报数据的企业评估报告生成方法及装置
CN114880469A (zh) 答案获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant