KR102075788B1

KR102075788B1 - 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템

Info

Publication number: KR102075788B1
Application number: KR1020170178139A
Authority: KR
Inventors: 박순주; 남기헌
Original assignee: 주식회사 하들소프트
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-02-10
Also published as: KR20190076381A

Abstract

본 발명은 빅 데이터 기술을 통해 인터넷상에 존재하는 수많은 의료정보 블로그를 종합·분석하되 내부 알고리즘을 통하여 전문의료인, 일반인, 광고 등을 구분하여 사용자에게 신뢰성 있는 정보 및 고품질의 의료정보 서비스를 제공하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템에 관한 것이다.

Description

빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템 {Healthy content recommendation service system using big datas}

본 발명은 건강정보 콘텐츠 추천 서비스 시스템에 관한 것으로, 자세하게는 빅 데이터 기술을 통해 인터넷상에 존재하는 수많은 의료정보 블로그를 종합·분석하되 내부 알고리즘을 통하여 전문의료인, 일반인, 광고 등을 구분하여 사용자에게 신뢰성 있는 정보 및 고품질의 의료정보 서비스를 제공하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템에 관한 것이다.

빅 데이터(Blog Big-Data) 기반 추천시스템은 뉴스, 영화, 음원, SNS 친구추천 등 다양한 분야에서 활용되고 있는 기술로서, 협업 필터링과 콘텐츠기반 필터링을 기반으로 한다.

이때 협업 필터링이란 대규모의 기존 사용자 행동 정보를 분석하여 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이고, 콘텐츠 기반 필터링은 위와 같은 협업 필터링과는 다른 방법으로 추천을 구현하는 방법으로, 협업 필터링이 사용자의 행동 기록을 이용하는 반면, 콘텐츠 기반 필터링은 항목 자체를 분석하여 추천을 한다.

최근 이러한 빅 데이터를 의료정보에 적용하여 사용자에게 고품질의 의료정보를 전달하되 협력 필터링과 딥러닝 등을 통한 신뢰도가 개선된 알고리즘이 연구되고 있다.

하지만, 기존 의료정보 제공 서비스는 주변의 대한 어떠한 모델을 제공하며 서비스를 받고자 하면 사용자가 서비스에서 제공되는 검색기능으로 활용하는 서비스(빅 데이터 검색)만 제공하는 것에 그쳤고, 각 서비스 업체마다 데이터를 개별관리를 하여 실제 별점과 같은 평가의 척도가 제한적이며 실제 참여하는 사람들도 많이 없어 직관적으로 판단 할 정보가 부족하다는 한계가 있었다.

등록특허공보 제10-1644841호 (2016.07.27)

본 발명은 상기와 같은 문제점을 해결하기 위하여 창출된 것으로, 본 발명의 목적은 분산되어 있는 의료정보 블로그 정보를 수집하되 협업 필터링, 콘텐츠 기반 필터링 적용 및 판단 척도에 따라 객관적이면서도 신뢰성 있는 고품질의 개인 맞춤형 의료정보를 제공할 수 있는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템을 제공하는 것이다.

상기와 같은 목적을 위해 본 발명은 의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 수집모듈부; 저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하는 분석부; 저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하는 질환별데이터분류부; 사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 입력부와, 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 추출부와, 추출된 키워드에 대응하여 상기 수집모듈부에 저장된 데이터를 검색하되 상기 분석부 및 질환별데이터분류부를 통해 필터링된 데이터를 검색 및 정렬하는 큐레이션부와, 상기 큐레이션부를 통해 정렬된 데이터를 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하는 프레젠테이션부를 구비하는 정보추천부; 이루어지는 것을 특징으로 한다.

이때 상기 분석부는, 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과, 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과, 유사도가 높은 복수의 문장과, 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하는 문서단위탐지부; 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와, 댓글 간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 작성자단위탐지부; 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고, 해당 댓글의 작성시간 및 유사도를 판단하여 분류하는 그룹단위탐지부; 로 이루어지는 것이 바람직하다.

또한, 상기 수집모듈부는 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하는 자연어처리부와, 형태소로 분류하는 형태소분석부와, 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 저장부를 구비하여 댓글을 사전 분석하여 분류하는 전처리부; 를 더 포함하는 것이 바람직하다.

또한, 상기 질환별데이터분류부는 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 카테고리 분류하는 질환분류부를 포함하는 것이 바람직하다.

또한, 상기 프레젠테이션부를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부의 분류 순위를 지정하는 피드백부; 를 더 포함할 수 있다.

본 발명 의료정보 추천 서비스를 통해 신속하고 정확한 의료정보 수집을 통하여 의료관련 Big-Data 확보하고 사용자 중심의 맞춤 의료정보 서비스가 이루어질 수 있다.

특히 웹에 분산되어있는 의료정보 블로그 정보를 개인 맞춤형 정보로 제공함에 있어 개인 의료정보 Blog 및 병원 의료정보 블로그를 객관적으로 판단할 수 있도록 도와주어 사용자는 객관적으로 의료시설을 선택하여 고 품질의 의료 서비스를 받을 수 있고 정보를 위한 시간과 비용을 절약할 수 있다.

또한, 추천받은 의료정보를 통하여 유사질환 지역 기반 Q&A 커뮤니티에 협약된 의료진들에게 질문하며 답을 받을 수 있도록 하여 유사질환을 조기 발견 및 상담을 통하여 고 품질의 서비스 제공할 수 있다.

도 1은 본 발명의 시스템 구성을 나타낸 개념도,
도 2는 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도,
도 3은 본 발명의 실시예에 따른 질환별 분류 개념도,
도 4는 질병 분류사전에 따른 예시 테이블,
도 5 내지 7은 본 발명의 실시예에 따른 UI 이다.

이하, 첨부된 도면을 참조하여 본 발명 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템의 구성을 구체적으로 설명한다.

도 1은 본 발명의 시스템 구성을 나타낸 개념도로서, 본 발명은 빅 데이터 기술을 통해 인터넷상에 존재하는 국내의 수백만 의료 정보 블로그(Blog)를 종합, 분석하여 협업 필터링과 콘텐츠 기반 필터링으로 신뢰할 수 있는 의료 정보 그룹화 및 신뢰성 있는 개인 맞춤형 의료정보를 제공하며 사용자는 유사질환 커뮤니티를 활용하여 유사질환 환자와의 정보공유 및 전문의를 통한 Q&A 서비스를 통해 개인 주도 건강관리를 실현 시킬 수 있도록 한다.

도 2는 본 발명의 실시예에 따른 구성 및 연결관계를 나타낸 블록도로서, 빅데이터 기술을 통해 인터넷상에 존재하는 국내의 수백만 의료 정보 블로그를 종합, 분석한 후 알고리즘을 통해 질환별 개인 맞춤형 건강정보 추천하기 위한 본 발명의 바람직한 실시예에서는 그 세부기능에 따라 수집모듈부(1)와, 분석부(2)와, 질환별데이터분류부(3)와, 정보추천부(4)와, 피드백부(5)와, SNS 연동부(6)의 주요구성이 구비된다.

상기 수집모듈부(1)는 의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 구성이다.

본 발명에서 크롤링 대상이 되는 주요 타깃은 언급한 바와 같이 국내의 수백만 의료 정보 블로그(Blog)를 기준으로 하며, 본 발명을 국외시장에 적용할 경우 해당 국가의 언어로 된 블로그를 대상으로 적용할 수 있음은 자명하다.

이때 검색조건이라 함은 질병명을 포함한 키워드를 중심으로 의료서비스와 관련된 다양한 설정키워드가 설정될 수 있으며, 웹상의 블로그는 주인이 작성한 원글과 손님의 댓글 또는 손님의 댓글의 답변으로 주인이 작성한 댓글로 이루어지므로 후술되는 바와 같이 이를 구분하여 분석할 수 있도록 분류·저장된다.

이러한 수집모듈부(1)를 통한 데이터 수집은 개인운영 블로그 정보 및 병원운영 의료정보 블로그와 댓글을 웹 크롤러를 통하여 수집하여 자료를 분석 가능한 형태로 저장하게 되며, 이를 위해 상기 수집모듈부(1)는 자연어처리부(111)와 형태소분석부(112) 및 저장부(113)로 이루어지는 전처리부(11)의 구성을 구비하게 된다.

상기 자연어처리부(111)는 수집 및 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하고, 상기 형태소분석부(112)는 자연어 처리된 댓글을 형태소로 분류하게 된다.

이는 수집된 블로그 원글의 댓글들에 대한 적합성 판단을 하는데 부적절한 영향을 주는 부분을 제거하기 위한 구성으로 한글, 숫자, 감정 분류를 위한 이모티콘을 제외한 한자, 영어를 제거하는 필터링 후 형태소 분석기를 통해 용언, 체언, 부사, 형식 형태소로 나누어 댓글의 전처리 과정이 이루어진다.

상기 저장부(113)는 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 일종의 데이터베이스의 구성이다. 후술되는 바와 같이 수집된 댓글은 측정항목에 따라 상관 분석, 패턴 분석, 오피니언 분류 등을 통하여 원글의 의료정보로서 적절, 부적절 여부를 판단하게 되므로 이를 수행하기 위하여, 사전에 단어 및 문장 사전, ID 분류 사전, 긍정/부정 분류 사전을 구축할 필요가 있다.

이와 같은 구성을 구비한 전처리부를 통해 수집된 비정형화 댓글을 텍스트마이닝 과정을 거쳐 구조화함으로 저장 및 분석 가능하도록 정형화하여 분석 가능한 형태로 저장하게 된다.

상기 분석부(2)는 저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하는 구성이다.

근래 업체가 제작한 홍보자료뿐 아니라 해당 업체를 이용한 수요자 후기를 중심으로 생성된 허위 댓글을 이용한 광고가 많이 이루어짐에 따라 정보에 대한 객관성이 위협받고 있음에 따라 이러한 분석부를 통해 허위로 작성된 리뷰를 판독할 필요가 있다.

이를 위해 상기 분석부(2)는 문서 단위 탐지, 개인 작성자 단위 탐지, 그룹 작성자 단위 탐지를 종합적으로 적용하여 탐지확률을 높이도록 하기 위해 문서단위탐지부(21)와, 작성자단위탐지부(22)와, 그룹단위탐지부(23)의 세부구성을 구비하게 된다.

상기 문서단위탐지부(21)는 상기 수집모듈부(1)를 통해 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과, 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과, 유사도가 높은 복수의 문장과, 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하게 된다.

즉 댓글 내용이 별다른 의미 없이 형식적 칭찬/반대만을 언급하는 등의 단순 문장과, 의도적인 전문적 용어가 다수 포함된 문장이 존재하는 지의 여부, 광고만을 위한 특정 어휘가 많이 사용되었는지의 여부, 댓글에 광고와 같은 특정 목적을 갖는 하이퍼링크(전화번호, 이메일 등)가 존재하는 지의 여부, 기계적인 유사 문장의 존재 여부, 여론을 조성하기 위하여 극단적으로 긍정/부정 패턴을 사용하였는지의 여부 등을 설정된 알고리즘에 의해 판정하게 된다.

예를 들어 형식적 단순 문장 탐지에서는 “매우 좋아요, 너무 친절해요.” 등의 형식적인 칭찬 등에 대한 댓글을 탐지할 수 있고, 전문적 용어 과다 사용 탐지는 블로그에 사용되고 있는 전문용어가 과다하게 댓글에 포함되어 있는 지를 탐지할 수 있다.

또한, 특정 어휘군의 사용빈도 탐에서는 동사, 부사. 대명사, 전치 한정사가 많이 사용될 경우 허위 댓글일 가능성이 크기 때문에 이를 탐지할 수 있으며, 댓글에 다른 광고 목적의 하이퍼링크, 전화번호, 이메일 등 부가적인 인터페이스가 존재하는 지를 탐지한다.

또한, 기계적인 유사 내용 탐지를 통해 유사한 내용과 평점의 리뷰를 여러 번 올리는 행위 등을 탐지하고, 긍정·부정 패턴 과다 사용 탐지에서는 각각의 중복 게시자의 댓글에 대해 추출된 긍정, 부정 사전을 활용하여 오피니언을 분류한 결과 긍정 또는 부정 패턴을 과다하게 사용하는 사용자를 탐지할 수 있다.

상기 작성자단위탐지부(22)는 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와, 댓글간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 구성으로, 문장을 비교하며 유사도를 산출할 수 있는 알고리즘을 적용하여 일반적으로 사이버 여론 조작에 이용되는 기법인 과다 게시행위와 유사글 중복 게시행위, 한 개의 ID 이지만 여러 명으로 위장 게시하는 행위를 탐지하여 제외 시킬 수 있다.

실질적으로 상기 작성자단위탐지부(22)는 게시자 이상행위 분석하기 위한 수단으로, 한 명의 게시자 ID로 댓글을 과다하게 게시하거나 실제로는 동일한 사람이면서 여러 개의 익명 ID를 이용하여 유사한 댓글을 게시하는 댓글 게시자인 애스트로터퍼(Astroturfer)의 존재 여부를 판단하기 위하여 ID 분류 사전 등의 알고리즘에 근거하여 패턴 분석을 실시할 수 있다.

통상 과다한 게시는 분석 대상 기간 각 블로그 내에서 특정한 사용자가 내용에 상관없이 과다한 댓글을 게시한 여부를 탐지하게 되고, 유사 문장 게시에서는 댓글 간 유사도를 바탕으로 내용이 유사한 댓글을 게시한 이용자가 존재하는지 분석한다. 이때 두 개의 댓글 간의 유사도 측정을 위해 코사인 유사도(Cosine Similarity) 측정 방법을 사용할 수 있다.

상기 그룹단위탐지부(23)는 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고, 해당 댓글의 작성시간 및 유사도를 판단하여 분류하기 위한 구성으로, 최근 블로그 관리 및 홍보를 위해 1인이 아닌 다수의 인원으로 구성된 특정 그룹으로부터의 의도적인 과도한 리뷰의 게시 여부, 특정 그룹의 유사 리뷰 게시 여부 등을 탐지하게 된다.

이는 그룹단위 이상행위를 분석하기 위한 구성으로 동일 블로그에 동시에 리뷰를 남기는 사용자 그룹을 찾아낸 뒤, 이 그룹이 작성한 리뷰가 정말 허위 리뷰인지 판단하며 이를 위해 동시성과 동일성을 비교하며 특정 그룹이 블로그의 리뷰를 중점적으로 게시했는지, 특정 그룹의 리뷰 내용이 유사한 여부를 탐지하여 광고성 글을 효과적으로 배제시킬 수 있도록 한다.

상기 질환별데이터분류부(3)는 저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하게 된다.

도 3은 본 발명의 실시예에 따른 질환별 분류 개념도로서, 질환별 분류는 수집 및 저장된 웹 데이터를 마이닝과 R 언어를 이용하여 질환의 유사도 측정, 이를 자연어 처리를 통하여 불용어, 숫자, 어간 추출 등을 제거한 후 단어-문서 행렬로 변환하여 질환별 카테고리 분류하게 된다.

이를 위해 상기 질환별데이터분류부(3)는 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부(31)와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 언급 빈도가 높은 카테고리로 분류하는 질환분류부(32)의 구성을 포함하게 된다.

도 4는 질병 분류사전에 따른 예시 테이블로서, 질환별 Big-Data 추출 정확도 측정을 위해 ‘보건의료 빅 데이터 개방시스템’에서 제공하는 국민관심병통계데이터 중복, 상처 등을 제외한 150종의 질환별 데이터 분류와 전체 크롤링 된 데이터와 비교하여 정확도를 비교하게 된다. 국민관심질병통계데이터는 2012년 ~ 2016년까지 의료기관을 가장 많이 이용한 대표 질환에 대한 통계지표를 나타내며 1,300여개 질병으로 기능확장이 이루어질 수 있다.

상기 정보추천부(4)는 관심질환정보와 건강자가진단 정보를 통해 유사질환정보를 국가보건기관, 의료기관, 개인전문의 등의 순으로 콘텐츠를 정렬하여 보여주기 위한 구성으로, 입력부(41)와 추출부(42)와 큐레이션부(43)와 프레젠테이션부(44)의 세부구성을 구비한다.

상기 입력부(41)는 사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 구성으로 관심있는 질병명을 포함하는 관심질환정보를 비롯하여 설문방식으로 사용자가 앓고 있다고 예상되는 질병을 판정할 수 있는 건강자가진단 문항을 사용자에게 제시 후, 이에 대한 답변 및 판정결과, 즉 예상 질병명을 건강자가진단정보로 입력받게 된다.

상기 추출부(42)는 상기 입력부(41)를 통해 입력된 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 구성으로, 실질적으로 도출된 질병명이 주요 키워드로 추출되며 필요에 따라 질병명이 아니더라도 질환의 치료나 예방과 밀접한 키워드가 추출될 수 있다. 추출은 관심질환정보 및 건강자가진단정보에서 미리 저장된 질병명 존재 여부를 확인하여 판독해내거나 언급 빈도를 확인하는 방식으로 이루어질 수 있다.

상기 큐레이션부(43)는 상기 추출부(42)를 통해 추출된 키워드에 대응하여 상기 수집모듈부(1)에 저장된 데이터를 검색하되 상기 분석부(2) 및 질환별데이터분류부(3)를 통해 필터링된 데이터를 검색 및 정렬하여 신뢰성이 확보된 사용자 맞춤형 의료정보가 제공될 수 있도록 한다.

이때 의료정보를 편집 및 배치하여 맞춤정보를 생성할 수 있는 도구를 적용할 수 있으며 미리 설정된 웹 저작도구를 통해 사용자의 질환 또는 관심에 밀접한 의료정보를 웹 형식으로 재구성하여 사용자 개인에게 최적화된 매거진 형태로 구성하는 것이다. 또한, 이와 같은 매거진 형태의 맞춤 건강정보는 카테고리별로 분류되며 즐겨찾기(스크랩) 기능이나 해당 사이트 링크 정보 등을 포함할 수 있도록 한다.

상기 프레젠테이션부(44)는 상기 큐레이션부(43)를 통해 정렬된 데이터를 사용자가 소지한 단말기를 통해 출력되도록 하되, 편의를 위해 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하게 된다.

상기 정보추천부(4)는 분산되어 있던 개인운영 의료 정보 블로그 보 및 병원 운영 의료 정보 블로그 데이터를 수집하여 협업 필터링, 콘텐츠기반 필터링을 통하여 신뢰성 있는 의료정보 블로그를 추천하게 되며, 개인 맞춤형 정보를 토대로 지역 기반 커뮤니티 Q&A에 유사질환 상담 및 유사질환 공유를 통하여 유사질환정보 및 관련 질환 조기발견을 도와 개인 건강 주도를 할 수 있도록 돕게된다.

상기 피드백부(5)는 상기 프레젠테이션부(44)를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부(43)의 분류 순위를 지정하는 구성이다. 즉 사용자가 관심있는 정보를 우선순위로 제공하기 위한 것으로 일례로 정렬순서는 콘텐츠, 협업 필터링 알고리즘을 이용하여 ‘좋아요 추천’, ‘조회 수’, ‘댓글 수 및 내용’ 등을 지수화하여 건강정보를 추천하게 된다.

상기 SNS 연동부(6)는 실질적으로 실시간 채팅 내지는 메신저 기능을 구비한 SNS와 연동하여 전문가와 상담을 지원하기 위한 구성으로, 채팅 내지는 메시지 송수신을 위해 전문가로부터 제공받은 SNS ID가 상기 프레젠테이션부를 통해 함께 제공되어 사용자가 이를 통해 전문가로부터 상담을 받을 수 있도록 구성된다. 이러한 일련의 기능을 위해 의료정보 제공을 위해 회원관리시 사용자의 SNS ID를 통해 로그인함으로 원활한 채팅이나 메신저 서비스가 진행될 수 있도록 할 필요가 있다.

특히 추천 블로그 성능 지표(내부 알고리즘) 등을 통하여 관련 질환별 좋은 평점을 받은 병원 의료진을 추천하여 1:1 상담 서비스로 질환의 조기 발견 및 유사질환 발견에 도움을 받도록 상기 SNS 연동부(6)를 통해 상용의 SNS에 연동하여 질문이나 상담글을 전송할 수 있도록 구성할 수 있다.

도 5 내지 7은 본 발명의 실시예에 따른 UI로서, 본 발명에서 개인 맞춤형 의료정보 제공은 기존의 유사 서비스와는 달리 의료정보 블로그를 내부 알고리즘을 통하여 전문의료인, 일반인, 광고성 등으로 게시자를 구분하여 사용자에게 보다 신뢰성 있는 정보를 주어 고품질의 의료정보 서비스를 받을 수 있도록 한다.

이를 통해 사용자는 신뢰도가 높은 건강정보를 얻을 수 있고 관련 의료기관의 정보도 추천받을 수 있게 될 것이다.

본 발명의 권리는 위에서 설명된 실시 예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.

1: 수집모듈부 11: 전처리부
111: 자연어처리부 112: 형태소분석부
113: 저장부 2: 분석부
21: 문서단위탐지부 22: 작성자단위탐지부
23: 그룹단위탐지부 3: 질환별데이터분류부
31: 텍스트마이닝부 32: 질환분류부
4: 정보추천부 41: 입력부
42: 추출부 43: 큐레이션부
44: 프레젠테이션부 5: 피드백부
6: SNS 연동부

Claims

의료정보에 대한 검색조건에 대하여 개인 블로그 및 병원운영 의료정보 블로그를 포함하는 인터넷상의 웹 사이트를 통해 퍼져있는 빅데이터를 크롤링하고, 크롤링한 데이터에 대해 원문과 댓글을 구분·분류하여 저장하는 수집모듈부(1);
저장된 데이터의 댓글과, 작성자를 분석하여 허위 리뷰 및 블로그 광고 데이터를 탐지하여 제외하되, 저장된 댓글을 분석하여 단순문장 및 설정된 전문용어가 포함된 문장과, 특정 어휘군의 사용빈도가 높다고 판단되는 문장과 전화번호와 이메일을 포함하는 하이퍼링크가 존재하는 문장과 유사도가 높은 복수의 문장과 설정된 긍정 또는 부정 패턴을 사용한 문장을 식별 및 분류하는 문서단위탐지부(21)와, 각 원문에 설정된 숫자 이상의 댓글을 게시한 게시자와 댓글간 유사도를 바탕으로 유사도가 높은 게시한 게시자를 식별 및 분류하는 작성자단위탐지부(22)와, 원문에 동시에 댓글을 남기는 사용자 그룹을 검색하고 해당 댓글의 작성시간 및 유사도를 판단하여 분류하는 그룹단위탐지부(23)를 구비하는 분석부(2);
저장된 원문을 분석하여 질병분류 카테고리에 포함된 내용과 비교하여 정확도를 측정하여 기준에 미치지 못하는 데이터를 제외하고 원문을 질환별 카테고리로 분류하되, 본문을 불용어처리와 숫자 및 공백제거와 어간추출과 구두점제거와 유사용어를 표준화하는 텍스트마이닝부(31)와, 질병 분류사전 목록에 의거하여 질병명 및 언급횟수를 행렬로 변환하여 카테고리 분류하는 질환분류부(32)를 구비하는 질환별데이터분류부(3);
사용자로부터 관심질환정보와 건강자가진단정보를 입력받는 입력부(41)와, 상기 관심질환정보 및 건강자가진단정보로부터 키워드를 추출하는 추출부(42)와, 추출된 키워드에 대응하여 상기 수집모듈부(1)에 저장된 데이터를 검색하되 상기 분석부(2) 및 질환별데이터분류부(3)를 통해 필터링된 데이터를 검색 및 정렬하는 큐레이션부(43)와, 상기 큐레이션부(43)를 통해 정렬된 데이터를 국가보건기관과 의료기관 및 개인전문의 순으로 정렬하여 출력하는 프레젠테이션부(44)를 구비하는 정보추천부(4);
상기 프레젠테이션부(44)를 통해 출력된 정보에 대하여 사용자로부터 평가를 입력받고, 상기 평가에 따라 상기 큐레이션부(43)의 분류 순위를 지정하는 피드백부(5);
실시간 채팅 또는 메신저 기능을 구비한 SNS와 연동하되, 관련 질환별 좋은 평점을 받은 병원 의료진을 추천하여 전문가와 상담을 지원하는 SNS 연동부(6); 로 이루어지는 것을 특징으로 하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템.
삭제
제1항에 있어서,
상기 수집모듈부(1)는 저장된 댓글의 한글과 숫자 및 감정을 표현하는 이모티콘을 제외한 문자를 제거하는 자연어처리부(111)와, 형태소로 분류하는 형태소분석부(112)와, 단어 및 문장사전과 긍정 및 부정어 분류를 반영하여 구축된 저장부(113)를 구비하여 댓글을 사전 분석하여 분류하는 전처리부(11); 를 더 포함하는 것을 특징으로 하는 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템.
삭제
삭제