KR102075788B1 - 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 - Google Patents
빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 Download PDFInfo
- Publication number
- KR102075788B1 KR102075788B1 KR1020170178139A KR20170178139A KR102075788B1 KR 102075788 B1 KR102075788 B1 KR 102075788B1 KR 1020170178139 A KR1020170178139 A KR 1020170178139A KR 20170178139 A KR20170178139 A KR 20170178139A KR 102075788 B1 KR102075788 B1 KR 102075788B1
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- disease
- information
- data
- comments
- Prior art date
Links
- 241001269238 Data Species 0.000 title 1
- 230000036541 health Effects 0.000 claims abstract description 28
- 201000010099 disease Diseases 0.000 claims description 64
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 64
- 238000001514 detection method Methods 0.000 claims description 21
- 238000012552 review Methods 0.000 claims description 10
- 238000004092 self-diagnosis Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G06Q50/30—
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Child & Adolescent Psychology (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
Abstract
본 발명은 빅 데이터 기술을 통해 인터넷상에 존재하는 수많은 의료정보 블로그를 종합·분석하되 내부 알고리즘을 통하여 전문의료인, 일반인, 광고 등을 구분하여 사용자에게 신뢰성 있는 정보 및 고품질의 의료정보 서비스를 제공하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템에 관한 것이다.
Description
본 발명은 건강정보 콘텐츠 추천 서비스 시스템에 관한 것으로, 자세하게는 빅 데이터 기술을 통해 인터넷상에 존재하는 수많은 의료정보 블로그를 종합·분석하되 내부 알고리즘을 통하여 전문의료인, 일반인, 광고 등을 구분하여 사용자에게 신뢰성 있는 정보 및 고품질의 의료정보 서비스를 제공하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템에 관한 것이다.
빅 데이터(Blog Big-Data) 기반 추천시스템은 뉴스, 영화, 음원, SNS 친구추천 등 다양한 분야에서 활용되고 있는 기술로서, 협업 필터링과 콘텐츠기반 필터링을 기반으로 한다.
이때 협업 필터링이란 대규모의 기존 사용자 행동 정보를 분석하여 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이고, 콘텐츠 기반 필터링은 위와 같은 협업 필터링과는 다른 방법으로 추천을 구현하는 방법으로, 협업 필터링이 사용자의 행동 기록을 이용하는 반면, 콘텐츠 기반 필터링은 항목 자체를 분석하여 추천을 한다.
최근 이러한 빅 데이터를 의료정보에 적용하여 사용자에게 고품질의 의료정보를 전달하되 협력 필터링과 딥러닝 등을 통한 신뢰도가 개선된 알고리즘이 연구되고 있다.
하지만, 기존 의료정보 제공 서비스는 주변의 대한 어떠한 모델을 제공하며 서비스를 받고자 하면 사용자가 서비스에서 제공되는 검색기능으로 활용하는 서비스(빅 데이터 검색)만 제공하는 것에 그쳤고, 각 서비스 업체마다 데이터를 개별관리를 하여 실제 별점과 같은 평가의 척도가 제한적이며 실제 참여하는 사람들도 많이 없어 직관적으로 판단 할 정보가 부족하다는 한계가 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 창출된 것으로, 본 발명의 목적은 분산되어 있는 의료정보 블로그 정보를 수집하되 협업 필터링, 콘텐츠 기반 필터링 적용 및 판단 척도에 따라 객관적이면서도 신뢰성 있는 고품질의 개인 맞춤형 의료정보를 제공할 수 있는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템을 제공하는 것이다.
상기와 같은 목적을 위해 본 발명은 의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 수집모듈부; 저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하는 분석부; 저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하는 질환별데이터분류부; 사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 입력부와, 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 추출부와, 추출된 키워드에 대응하여 상기 수집모듈부에 저장된 데이터를 검색하되 상기 분석부 및 질환별데이터분류부를 통해 필터링된 데이터를 검색 및 정렬하는 큐레이션부와, 상기 큐레이션부를 통해 정렬된 데이터를 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하는 프레젠테이션부를 구비하는 정보추천부; 이루어지는 것을 특징으로 한다.
이때 상기 분석부는, 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과, 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과, 유사도가 높은 복수의 문장과, 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하는 문서단위탐지부; 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와, 댓글 간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 작성자단위탐지부; 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고, 해당 댓글의 작성시간 및 유사도를 판단하여 분류하는 그룹단위탐지부; 로 이루어지는 것이 바람직하다.
또한, 상기 수집모듈부는 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하는 자연어처리부와, 형태소로 분류하는 형태소분석부와, 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 저장부를 구비하여 댓글을 사전 분석하여 분류하는 전처리부; 를 더 포함하는 것이 바람직하다.
또한, 상기 질환별데이터분류부는 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 카테고리 분류하는 질환분류부를 포함하는 것이 바람직하다.
또한, 상기 프레젠테이션부를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부의 분류 순위를 지정하는 피드백부; 를 더 포함할 수 있다.
본 발명 의료정보 추천 서비스를 통해 신속하고 정확한 의료정보 수집을 통하여 의료관련 Big-Data 확보하고 사용자 중심의 맞춤 의료정보 서비스가 이루어질 수 있다.
특히 웹에 분산되어있는 의료정보 블로그 정보를 개인 맞춤형 정보로 제공함에 있어 개인 의료정보 Blog 및 병원 의료정보 블로그를 객관적으로 판단할 수 있도록 도와주어 사용자는 객관적으로 의료시설을 선택하여 고 품질의 의료 서비스를 받을 수 있고 정보를 위한 시간과 비용을 절약할 수 있다.
또한, 추천받은 의료정보를 통하여 유사질환 지역 기반 Q&A 커뮤니티에 협약된 의료진들에게 질문하며 답을 받을 수 있도록 하여 유사질환을 조기 발견 및 상담을 통하여 고 품질의 서비스 제공할 수 있다.
도 1은 본 발명의 시스템 구성을 나타낸 개념도,
도 2는 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도,
도 3은 본 발명의 실시예에 따른 질환별 분류 개념도,
도 4는 질병 분류사전에 따른 예시 테이블,
도 5 내지 7은 본 발명의 실시예에 따른 UI 이다.
도 2는 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도,
도 3은 본 발명의 실시예에 따른 질환별 분류 개념도,
도 4는 질병 분류사전에 따른 예시 테이블,
도 5 내지 7은 본 발명의 실시예에 따른 UI 이다.
이하, 첨부된 도면을 참조하여 본 발명 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템의 구성을 구체적으로 설명한다.
도 1은 본 발명의 시스템 구성을 나타낸 개념도로서, 본 발명은 빅 데이터 기술을 통해 인터넷상에 존재하는 국내의 수백만 의료 정보 블로그(Blog)를 종합, 분석하여 협업 필터링과 콘텐츠 기반 필터링으로 신뢰할 수 있는 의료 정보 그룹화 및 신뢰성 있는 개인 맞춤형 의료정보를 제공하며 사용자는 유사질환 커뮤니티를 활용하여 유사질환 환자와의 정보공유 및 전문의를 통한 Q&A 서비스를 통해 개인 주도 건강관리를 실현 시킬 수 있도록 한다.
도 2는 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도로서, 빅데이터 기술을 통해 인터넷상에 존재하는 국내의 수백만 의료 정보 블로그를 종합, 분석한 후 알고리즘을 통해 질환별 개인 맞춤형 건강정보 추천하기 위한 본 발명의 바람직한 실시예에서는 그 세부기능에 따라 수집모듈부(1)와, 분석부(2)와, 질환별데이터분류부(3)와, 정보추천부(4)와, 피드백부(5)와, SNS 연동부(6)의 주요구성이 구비된다.
상기 수집모듈부(1)는 의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 구성이다.
본 발명에서 크롤링 대상이 되는 주요 타깃은 언급한 바와 같이 국내의 수백만 의료 정보 블로그(Blog)를 기준으로 하며, 본 발명을 국외시장에 적용할 경우 해당 국가의 언어로 된 블로그를 대상으로 적용할 수 있음은 자명하다.
이때 검색조건이라 함은 질병명을 포함한 키워드를 중심으로 의료서비스와 관련된 다양한 설정키워드가 설정될 수 있으며, 웹상의 블로그는 주인이 작성한 원글과 손님의 댓글 또는 손님의 댓글의 답변으로 주인이 작성한 댓글로 이루어지므로 후술되는 바와 같이 이를 구분하여 분석할 수 있도록 분류·저장된다.
이러한 수집모듈부(1)를 통한 데이터 수집은 개인운영 블로그 정보 및 병원운영 의료정보 블로그와 댓글을 웹 크롤러를 통하여 수집하여 자료를 분석 가능한 형태로 저장하게 되며, 이를 위해 상기 수집모듈부(1)는 자연어처리부(111)와 형태소분석부(112) 및 저장부(113)로 이루어지는 전처리부(11)의 구성을 구비하게 된다.
상기 자연어처리부(111)는 수집 및 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하고, 상기 형태소분석부(112)는 자연어 처리된 댓글을 형태소로 분류하게 된다.
이는 수집된 블로그 원글의 댓글들에 대한 적합성 판단을 하는데 부적절한 영향을 주는 부분을 제거하기 위한 구성으로 한글, 숫자, 감정 분류를 위한 이모티콘을 제외한 한자, 영어를 제거하는 필터링 후 형태소 분석기를 통해 용언, 체언, 부사, 형식 형태소로 나누어 댓글의 전처리 과정이 이루어진다.
상기 저장부(113)는 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 일종의 데이터베이스의 구성이다. 후술되는 바와 같이 수집된 댓글은 측정항목에 따라 상관 분석, 패턴 분석, 오피니언 분류 등을 통하여 원글의 의료정보로서 적절, 부적절 여부를 판단하게 되므로 이를 수행하기 위하여, 사전에 단어 및 문장 사전, ID 분류 사전, 긍정/부정 분류 사전을 구축할 필요가 있다.
이와 같은 구성을 구비한 전처리부를 통해 수집된 비정형화 댓글을 텍스트마이닝 과정을 거쳐 구조화함으로 저장 및 분석 가능하도록 정형화하여 분석 가능한 형태로 저장하게 된다.
상기 분석부(2)는 저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하는 구성이다.
근래 업체가 제작한 홍보자료뿐 아니라 해당 업체를 이용한 수요자 후기를 중심으로 생성된 허위 댓글을 이용한 광고가 많이 이루어짐에 따라 정보에 대한 객관성이 위협받고 있음에 따라 이러한 분석부를 통해 허위로 작성된 리뷰를 판독할 필요가 있다.
이를 위해 상기 분석부(2)는 문서 단위 탐지, 개인 작성자 단위 탐지, 그룹 작성자 단위 탐지를 종합적으로 적용하여 탐지확률을 높이도록 하기 위해 문서단위탐지부(21)와, 작성자단위탐지부(22)와, 그룹단위탐지부(23)의 세부구성을 구비하게 된다.
상기 문서단위탐지부(21)는 상기 수집모듈부(1)를 통해 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과, 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과, 유사도가 높은 복수의 문장과, 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하게 된다.
즉 댓글 내용이 별다른 의미 없이 형식적 칭찬/반대만을 언급하는 등의 단순 문장과, 의도적인 전문적 용어가 다수 포함된 문장이 존재하는 지의 여부, 광고만을 위한 특정 어휘가 많이 사용되었는지의 여부, 댓글에 광고와 같은 특정 목적을 갖는 하이퍼링크(전화번호, 이메일 등)가 존재하는 지의 여부, 기계적인 유사 문장의 존재 여부, 여론을 조성하기 위하여 극단적으로 긍정/부정 패턴을 사용하였는지의 여부 등을 설정된 알고리즘에 의해 판정하게 된다.
예를 들어 형식적 단순 문장 탐지에서는 “매우 좋아요, 너무 친절해요.” 등의 형식적인 칭찬 등에 대한 댓글을 탐지할 수 있고, 전문적 용어 과다 사용 탐지는 블로그에 사용되고 있는 전문용어가 과다하게 댓글에 포함되어 있는 지를 탐지할 수 있다.
또한, 특정 어휘군의 사용빈도 탐에서는 동사, 부사. 대명사, 전치 한정사가 많이 사용될 경우 허위 댓글일 가능성이 크기 때문에 이를 탐지할 수 있으며, 댓글에 다른 광고 목적의 하이퍼링크, 전화번호, 이메일 등 부가적인 인터페이스가 존재하는 지를 탐지한다.
또한, 기계적인 유사 내용 탐지를 통해 유사한 내용과 평점의 리뷰를 여러 번 올리는 행위 등을 탐지하고, 긍정·부정 패턴 과다 사용 탐지에서는 각각의 중복 게시자의 댓글에 대해 추출된 긍정, 부정 사전을 활용하여 오피니언을 분류한 결과 긍정 또는 부정 패턴을 과다하게 사용하는 사용자를 탐지할 수 있다.
상기 작성자단위탐지부(22)는 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와, 댓글간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 구성으로, 문장을 비교하며 유사도를 산출할 수 있는 알고리즘을 적용하여 일반적으로 사이버 여론 조작에 이용되는 기법인 과다 게시행위와 유사글 중복 게시행위, 한 개의 ID 이지만 여러 명으로 위장 게시하는 행위를 탐지하여 제외 시킬 수 있다.
실질적으로 상기 작성자단위탐지부(22)는 게시자 이상행위 분석하기 위한 수단으로, 한 명의 게시자 ID로 댓글을 과다하게 게시하거나 실제로는 동일한 사람이면서 여러 개의 익명 ID를 이용하여 유사한 댓글을 게시하는 댓글 게시자인 애스트로터퍼(Astroturfer)의 존재 여부를 판단하기 위하여 ID 분류 사전 등의 알고리즘에 근거하여 패턴 분석을 실시할 수 있다.
통상 과다한 게시는 분석 대상 기간 각 블로그 내에서 특정한 사용자가 내용에 상관없이 과다한 댓글을 게시한 여부를 탐지하게 되고, 유사 문장 게시에서는 댓글 간 유사도를 바탕으로 내용이 유사한 댓글을 게시한 이용자가 존재하는지 분석한다. 이때 두 개의 댓글 간의 유사도 측정을 위해 코사인 유사도(Cosine Similarity) 측정 방법을 사용할 수 있다.
상기 그룹단위탐지부(23)는 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고, 해당 댓글의 작성시간 및 유사도를 판단하여 분류하기 위한 구성으로, 최근 블로그 관리 및 홍보를 위해 1인이 아닌 다수의 인원으로 구성된 특정 그룹으로부터의 의도적인 과도한 리뷰의 게시 여부, 특정 그룹의 유사 리뷰 게시 여부 등을 탐지하게 된다.
이는 그룹단위 이상행위를 분석하기 위한 구성으로 동일 블로그에 동시에 리뷰를 남기는 사용자 그룹을 찾아낸 뒤, 이 그룹이 작성한 리뷰가 정말 허위 리뷰인지 판단하며 이를 위해 동시성과 동일성을 비교하며 특정 그룹이 블로그의 리뷰를 중점적으로 게시했는지, 특정 그룹의 리뷰 내용이 유사한 여부를 탐지하여 광고성 글을 효과적으로 배제시킬 수 있도록 한다.
상기 질환별데이터분류부(3)는 저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하게 된다.
도 3은 본 발명의 실시예에 따른 질환별 분류 개념도로서, 질환별 분류는 수집 및 저장된 웹 데이터를 마이닝과 R 언어를 이용하여 질환의 유사도 측정, 이를 자연어 처리를 통하여 불용어, 숫자, 어간 추출 등을 제거한 후 단어-문서 행렬로 변환하여 질환별 카테고리 분류하게 된다.
이를 위해 상기 질환별데이터분류부(3)는 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부(31)와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 언급 빈도가 높은 카테고리로 분류하는 질환분류부(32)의 구성을 포함하게 된다.
도 4는 질병 분류사전에 따른 예시 테이블로서, 질환별 Big-Data 추출 정확도 측정을 위해 ‘보건의료 빅 데이터 개방시스템’에서 제공하는 국민관심병통계데이터 중복, 상처 등을 제외한 150종의 질환별 데이터 분류와 전체 크롤링 된 데이터와 비교하여 정확도를 비교하게 된다. 국민관심질병통계데이터는 2012년 ~ 2016년까지 의료기관을 가장 많이 이용한 대표 질환에 대한 통계지표를 나타내며 1,300여개 질병으로 기능확장이 이루어질 수 있다.
상기 정보추천부(4)는 관심질환정보와 건강자가진단 정보를 통해 유사질환정보를 국가보건기관, 의료기관, 개인전문의 등의 순으로 콘텐츠를 정렬하여 보여주기 위한 구성으로, 입력부(41)와 추출부(42)와 큐레이션부(43)와 프레젠테이션부(44)의 세부구성을 구비한다.
상기 입력부(41)는 사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 구성으로 관심있는 질병명을 포함하는 관심질환정보를 비롯하여 설문방식으로 사용자가 앓고 있다고 예상되는 질병을 판정할 수 있는 건강자가진단 문항을 사용자에게 제시 후, 이에 대한 답변 및 판정결과, 즉 예상 질병명을 건강자가진단정보로 입력받게 된다.
상기 추출부(42)는 상기 입력부(41)를 통해 입력된 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 구성으로, 실질적으로 도출된 질병명이 주요 키워드로 추출되며 필요에 따라 질병명이 아니더라도 질환의 치료나 예방과 밀접한 키워드가 추출될 수 있다. 추출은 관심질환정보 및 건강자가진단정보에서 미리 저장된 질병명 존재 여부를 확인하여 판독해내거나 언급 빈도를 확인하는 방식으로 이루어질 수 있다.
상기 큐레이션부(43)는 상기 추출부(42)를 통해 추출된 키워드에 대응하여 상기 수집모듈부(1)에 저장된 데이터를 검색하되 상기 분석부(2) 및 질환별데이터분류부(3)를 통해 필터링된 데이터를 검색 및 정렬하여 신뢰성이 확보된 사용자 맞춤형 의료정보가 제공될 수 있도록 한다.
이때 의료정보를 편집 및 배치하여 맞춤정보를 생성할 수 있는 도구를 적용할 수 있으며 미리 설정된 웹 저작도구를 통해 사용자의 질환 또는 관심에 밀접한 의료정보를 웹 형식으로 재구성하여 사용자 개인에게 최적화된 매거진 형태로 구성하는 것이다. 또한, 이와 같은 매거진 형태의 맞춤 건강정보는 카테고리별로 분류되며 즐겨찾기(스크랩) 기능이나 해당 사이트 링크 정보 등을 포함할 수 있도록 한다.
상기 프레젠테이션부(44)는 상기 큐레이션부(43)를 통해 정렬된 데이터를 사용자가 소지한 단말기를 통해 출력되도록 하되, 편의를 위해 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하게 된다.
상기 정보추천부(4)는 분산되어 있던 개인운영 의료 정보 블로그 보 및 병원 운영 의료 정보 블로그 데이터를 수집하여 협업 필터링, 콘텐츠기반 필터링을 통하여 신뢰성 있는 의료정보 블로그를 추천하게 되며, 개인 맞춤형 정보를 토대로 지역 기반 커뮤니티 Q&A에 유사질환 상담 및 유사질환 공유를 통하여 유사질환정보 및 관련 질환 조기발견을 도와 개인 건강 주도를 할 수 있도록 돕게된다.
상기 피드백부(5)는 상기 프레젠테이션부(44)를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부(43)의 분류 순위를 지정하는 구성이다. 즉 사용자가 관심있는 정보를 우선순위로 제공하기 위한 것으로 일례로 정렬순서는 콘텐츠, 협업 필터링 알고리즘을 이용하여 ‘좋아요 추천’, ‘조회 수’, ‘댓글 수 및 내용’ 등을 지수화하여 건강정보를 추천하게 된다.
상기 SNS 연동부(6)는 실질적으로 실시간 채팅 내지는 메신저 기능을 구비한 SNS와 연동하여 전문가와 상담을 지원하기 위한 구성으로, 채팅 내지는 메시지 송수신을 위해 전문가로부터 제공받은 SNS ID가 상기 프레젠테이션부를 통해 함께 제공되어 사용자가 이를 통해 전문가로부터 상담을 받을 수 있도록 구성된다. 이러한 일련의 기능을 위해 의료정보 제공을 위해 회원관리시 사용자의 SNS ID를 통해 로그인함으로 원활한 채팅이나 메신저 서비스가 진행될 수 있도록 할 필요가 있다.
특히 추천 블로그 성능 지표(내부 알고리즘) 등을 통하여 관련 질환별 좋은 평점을 받은 병원 의료진을 추천하여 1:1 상담 서비스로 질환의 조기 발견 및 유사질환 발견에 도움을 받도록 상기 SNS 연동부(6)를 통해 상용의 SNS에 연동하여 질문이나 상담글을 전송할 수 있도록 구성할 수 있다.
도 5 내지 7은 본 발명의 실시예에 따른 UI로서, 본 발명에서 개인 맞춤형 의료정보 제공은 기존의 유사 서비스와는 달리 의료정보 블로그를 내부 알고리즘을 통하여 전문의료인, 일반인, 광고성 등으로 게시자를 구분하여 사용자에게 보다 신뢰성 있는 정보를 주어 고품질의 의료정보 서비스를 받을 수 있도록 한다.
이를 통해 사용자는 신뢰도가 높은 건강정보를 얻을 수 있고 관련 의료기관의 정보도 추천받을 수 있게 될 것이다.
본 발명의 권리는 위에서 설명된 실시 예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
1: 수집모듈부 11: 전처리부
111: 자연어처리부 112: 형태소분석부
113: 저장부 2: 분석부
21: 문서단위탐지부 22: 작성자단위탐지부
23: 그룹단위탐지부 3: 질환별데이터분류부
31: 텍스트마이닝부 32: 질환분류부
4: 정보추천부 41: 입력부
42: 추출부 43: 큐레이션부
44: 프레젠테이션부 5: 피드백부
6: SNS 연동부
111: 자연어처리부 112: 형태소분석부
113: 저장부 2: 분석부
21: 문서단위탐지부 22: 작성자단위탐지부
23: 그룹단위탐지부 3: 질환별데이터분류부
31: 텍스트마이닝부 32: 질환분류부
4: 정보추천부 41: 입력부
42: 추출부 43: 큐레이션부
44: 프레젠테이션부 5: 피드백부
6: SNS 연동부
Claims (5)
- 의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 수집모듈부(1);
저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하되, 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과 유사도가 높은 복수의 문장과 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하는 문서단위탐지부(21)와, 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와 댓글간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 작성자단위탐지부(22)와, 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고 해당 댓글의 작성시간 및 유사도를 판단하여 분류하는 그룹단위탐지부(23)를 구비하는 분석부(2);
저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하되, 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부(31)와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 카테고리 분류하는 질환분류부(32)를 구비하는 질환별데이터분류부(3);
사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 입력부(41)와, 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 추출부(42)와, 추출된 키워드에 대응하여 상기 수집모듈부(1)에 저장된 데이터를 검색하되 상기 분석부(2) 및 질환별데이터분류부(3)를 통해 필터링된 데이터를 검색 및 정렬하는 큐레이션부(43)와, 상기 큐레이션부(43)를 통해 정렬된 데이터를 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하는 프레젠테이션부(44)를 구비하는 정보추천부(4);
상기 프레젠테이션부(44)를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부(43)의 분류 순위를 지정하는 피드백부(5);
실시간 채팅 또는 메신저 기능을 구비한 SNS와 연동하되, 관련 질환별 좋은 평점을 받은 병원 의료진을 추천하여 전문가와 상담을 지원하는 SNS 연동부(6); 로 이루어지는 것을 특징으로 하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템.
- 삭제
- 제1항에 있어서,
상기 수집모듈부(1)는 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하는 자연어처리부(111)와, 형태소로 분류하는 형태소분석부(112)와, 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 저장부(113)를 구비하여 댓글을 사전 분석하여 분류하는 전처리부(11); 를 더 포함하는 것을 특징으로 하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170178139A KR102075788B1 (ko) | 2017-12-22 | 2017-12-22 | 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170178139A KR102075788B1 (ko) | 2017-12-22 | 2017-12-22 | 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190076381A KR20190076381A (ko) | 2019-07-02 |
KR102075788B1 true KR102075788B1 (ko) | 2020-02-10 |
Family
ID=67258353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170178139A KR102075788B1 (ko) | 2017-12-22 | 2017-12-22 | 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102075788B1 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102074805B1 (ko) * | 2019-07-15 | 2020-02-10 | 이노파이안 주식회사 | 의료관광 콘텐츠 플랫폼 운영 방법 |
KR102529407B1 (ko) * | 2019-11-21 | 2023-05-08 | 주식회사 케이티 | 건강 컨설팅 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 |
KR102386604B1 (ko) * | 2020-05-14 | 2022-04-13 | 한림대학교 산학협력단 | 이명 상담 지원 시스템 |
KR102216236B1 (ko) * | 2020-05-27 | 2021-02-17 | 주식회사 메디오 | 인공 지능 기반의 건강 컨텐츠 연관 의료 정보 제공 방법 및 이러한 방법을 수행하는 장치 |
KR102407057B1 (ko) * | 2020-06-01 | 2022-06-10 | 주식회사 피처링 | Sns 사용자 채널에 대한 공개 데이터를 분석하여 영향력 리포트를 제공하는 시스템 및 방법 |
CN113782193A (zh) * | 2020-06-09 | 2021-12-10 | 阿里健康信息技术有限公司 | 一种数据处理方法、终端设备和可读存储介质 |
CN112529355B (zh) * | 2020-10-29 | 2024-03-12 | 长沙市到家悠享家政服务有限公司 | 家政服务获取方法、服务器和存储介质 |
KR102494285B1 (ko) * | 2020-11-05 | 2023-02-08 | 주식회사 동글 | 온라인 상품 정보 수집 장치 |
KR102301225B1 (ko) * | 2020-11-17 | 2021-09-14 | 서울대학교산학협력단 | 비만 예방 및 치료를 위한 사용자와 트레이너 매칭 서비스 제공방법, 장치 및 컴퓨터프로그램 |
CN112561601B (zh) * | 2020-12-24 | 2024-04-05 | 辽宁师范大学 | 基于老年健康的信息服务在线推广系统及方法 |
JP7438395B2 (ja) * | 2022-02-25 | 2024-02-26 | 三菱電機株式会社 | 情報処理システム、情報処理方法、およびサーバ |
KR102545551B1 (ko) * | 2022-11-16 | 2023-06-21 | 주식회사 바디버디 | 인공지능 기반 맞춤형 건강기능식품 큐레이션 서비스 제공 방법, 장치 및 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101566616B1 (ko) * | 2014-05-14 | 2015-11-09 | 이정행 | 빅데이터 처리를 통한 광고의사결정시스템 및 방법 |
KR101606155B1 (ko) * | 2014-10-29 | 2016-03-24 | (주)블루와이즈 | 개인 맞춤형 건강정보 제공시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101644841B1 (ko) | 2014-09-23 | 2016-08-02 | 주식회사 비앤에이치코리아 | 통합 의료관광 서비스 제공 방법 |
KR101815455B1 (ko) * | 2015-12-31 | 2018-01-05 | (주)블루와이즈 | 개인 건강정보 기반의 건강 콘텐츠 생성 및 맞춤형 정보 제공시스템 |
KR101845897B1 (ko) * | 2016-01-28 | 2018-04-05 | (주)중외정보기술 | 의료 학술연구 지원 시스템 및 방법 |
-
2017
- 2017-12-22 KR KR1020170178139A patent/KR102075788B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101566616B1 (ko) * | 2014-05-14 | 2015-11-09 | 이정행 | 빅데이터 처리를 통한 광고의사결정시스템 및 방법 |
KR101606155B1 (ko) * | 2014-10-29 | 2016-03-24 | (주)블루와이즈 | 개인 맞춤형 건강정보 제공시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20190076381A (ko) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102075788B1 (ko) | 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 | |
AlDayel et al. | Stance detection on social media: State of the art and trends | |
Reiter | A structured review of the validity of BLEU | |
Mostafa | Mining and mapping halal food consumers: A geo-located Twitter opinion polarity analysis | |
Fatima et al. | Analysis of user-generated content from online social communities to characterise and predict depression degree | |
Liu et al. | A two-phase sentiment analysis approach for judgement prediction | |
Lobanova et al. | Defining antonymy: A corpus-based study of opposites by lexico-syntactic patterns | |
Park | Developing a COVID-19 crisis management strategy using news media and social media in big data analytics | |
Wiedemann | Proportional classification revisited: Automatic content analysis of political manifestos using active learning | |
Banerjee et al. | Authentic versus fictitious online reviews: A textual analysis across luxury, budget, and mid-range hotels | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
Przybyła et al. | When classification accuracy is not enough: Explaining news credibility assessment | |
Ermakova et al. | Is the abstract a mere teaser? Evaluating generosity of article abstracts in the environmental sciences | |
Tassone et al. | Utilizing deep learning and graph mining to identify drug use on Twitter data | |
Hajhmida et al. | Predicting mobile application breakout using sentiment analysis of Facebook posts | |
López-Ubeda et al. | Detecting anorexia in Spanish tweets | |
Genç et al. | ClickbaitTR: Dataset for clickbait detection from Turkish news sites and social media with a comparative analysis via machine learning algorithms | |
TW201640383A (zh) | 網路事件自動蒐集分析方法及系統 | |
Cheng et al. | Applying text mining methods to suicide research | |
Samanta et al. | Depression Detection from Twitter Data Using Two Level Multi-modal Feature Extraction | |
Wang et al. | Sentiment analysis of tweets and government translations: Assessing China’s post-COVID-19 landscape for signs of withering or booming | |
Kimbrough et al. | On developing indicators with text analytics: exploring concept vectors applied to English and Chinese texts | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
Shrestha et al. | Multi-modal analysis of misleading political news | |
Jones et al. | Analysis of online suicide risk with document embeddings and latent dirichlet allocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |