KR101887643B1

KR101887643B1 - 머신 러닝 기반의 공공데이터 추천 장치 및 방법

Info

Publication number: KR101887643B1
Application number: KR1020170028889A
Authority: KR
Inventors: 김종현; 황덕열; 윤호열; 최용준; 김상수
Original assignee: (주)위세아이텍
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2018-08-10

Abstract

공공데이터 추천 방법에 관한 것이며, 공공데이터 추천 방법은 (a) 공공데이터 관련 기초데이터를 수집하는 단계, (b) 상기 기초데이터에 포함된 공공데이터에 대하여, 기 설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 산출하여 추천 목록을 생성하는 단계 및 (c) 생성된 상기 추천 목록에 기반하여 상기 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 상기 추천 공공데이터를 사용자에게 제공하는 단계를 포함할 수 있다.

Description

머신 러닝 기반의 공공데이터 추천 장치 및 방법 {PUBLIC DATA RECOMMENDATION APPARATUS AND METHOD BASED ON MACHINE LEARNING}

본원은 머신 러닝 기반의 공공데이터 추천 장치 및 방법에 관한 것이다.

정부는 투명성과 효율성을 제고하기 위한 정책으로 공공데이터를 적극적으로 개방하고 공유하기 위해 공공데이터 포털(www.data.go.kr)을 비롯한 많은 개방사이트를 통해 공공데이터 개방 서비스에 적극적으로 나서고 있다.

그런데, 방대한 양의 공공데이터가 수요자에게 개방되고 있음에도 불구하고, 종래의 개방사이트는 단순 콘텐츠 추천 방식(예를 들어, 다운로드 순위 TOP 10, 최신 순위 등)으로 개방 서비스를 제공하는 등 매우 정적인 서비스를 제공하고 있다. 이러한 서비스 방식은 개방 서비스 이용자의 질적 수요에 맞는 콘텐츠를 제공하지 못하여 그 활용성이 저하될 뿐더러 사용자의 재방문을 유도하는데 한계가 있다.

또한, 종래에는 “공공데이터의 제공 및 이용 활성화에 관한 법률”에 의하여 수요자 정보(이는, 개인식별정보, 주소정보, 민감정보 등 특정인에 대한 맞춤 정보를 제공하기 위한 타겟 정보를 의미함)를 획득 하는데 제약이 있어, 개방사이트에 로그인 한 사용자 개개인에 맞춤화 된 서비스를 제공하는데 한계가 있다.

또한, 종래의 개방사이트는, 특정 공공데이터에 대한 검색시에 제공하는 “연관 검색어” 목록에 사용자가 입력한 검색어와 전혀 관련 없는 내용을 포함시켜 제공하고 있어 그 활용성이 떨어지는 문제가 있으며, 검색 결과 또한 활용성이 높은 데이터가 상위에 배치되지 않음에 따라 사용자가 요구하는 정보를 탐색하기 위해 추가로 많은 시간을 소요해야 하는 문제가 있다.

본원의 배경이 되는 기술은 한국등록특허공보 제10-0918563호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 공공데이터의 효율적 활용이 가능하도록 사용자에게 맞춤형 공공데이터 추천 서비스를 제공하려는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 공공데이터를 보다 효율적으로 추천함으로써 사용자로 하여금 개방 사이트에 지속적인 재방문을 유도하고 이를 통해 개방사이트의 경쟁력을 강화 시키려는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 공공데이터의 이용을 보다 활성화하기 위해 사용자가 입력한 검색어와 연관성이 높은 연관 검색어를 제공할 뿐만 아니라 검색 결과로서 활용성이 높은 데이터가 상위에 배치되도록 하여 사용자가 요구하는 정보를 보다 빠르게 제공받을 수 있도록 하려는 것을 목적으로 한다.

또한, 본원은 사용자가 사업화 아이템을 선정하고 이와 관련된 서비스를 찾고자 할 때 전체 공공데이터 중 관련성이 높고 활용성이 높은 공공데이터를 우선적으로 제공함으로써, 사용자가 일일이 검색하지 않고도 사업화 아이템 창출을 위한 매시업(Mashup) 서비스의 지원을 극대화 시키려는 것을 목적으로 한다.

본원은 개방사이트를 방문하는 사용자들로 하여금 실시간으로 변하는 사용자의 요구사항을 반영하여 사용자가 원하는 공공데이터를 보다 손쉽게 제공받을 수 있도록 하려는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 공공데이터 추천 방법은 (a) 공공데이터 관련 기초데이터를 수집하는 단계, (b) 상기 기초데이터에 포함된 공공데이터에 대하여, 기 설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 산출하여 추천 목록을 생성하는 단계 및 (c) 생성된 상기 추천 목록에 기반하여 상기 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 상기 추천 공공데이터를 사용자에게 제공하는 단계를 포함할 수 있다.

또한, 상기 선호점수는, 활용성이 높은 공공데이터일수록 높은 점수가 부여될 수 있다.

또한, 상기 기 설정된 선호도 산출 조건은 공공데이터를 제공하는 개방사이트에서의 분류체계, 공공데이터의 조회수, 공공데이터의 다운로드 수, 공공데이터의 개방일 및 공공데이터의 평점을 포함할 수 있다.

또한, 상기 추천점수는 상기 기초데이터에 포함된 공공데이터에 대하여 사회 변동성이 고려된 관심점수를 더 포함하고, 상기 (b) 단계에서 상기 추천 목록은 상기 선호점수 및 상기 관심점수를 고려하여 생성될 수 있다.

또한, 상기 관심점수는 국가 행사, 사회 관심사, 시대적 이슈 및 트랜드 중 적어도 하나를 포함하는 사회 변동성 관련 이벤트에 속한 실생활 관련 공공데이터일수록 높은 점수가 부여될 수 있다.

또한, 상기 (b) 단계에서, 상기 추천 목록은 복수의 이벤트 유형에 속한 실생활 관련 공공데이터의 경우 상기 복수의 이벤트 유형의 발생 시점에 따라 관심점수를 차등 부여함으로써 생성될 수 있다.

또한, 상기 추천점수는 상기 사용자로부터 입력 받은 검색어에 기반한 콘텐츠 레벨에서의 연관성이 고려된 연관점수를 더 포함하고, 상기 (b) 단계에서, 상기 추천 목록은 상기 선호점수, 상기 관심점수 및 상기 연관점수를 고려하여 생성될 수 있다.

또한, 상기 (b) 단계에서, 상기 추천 목록은 상기 기초데이터에 포함된 공공데이터의 메타정보에 기반하여 식별되고 검색어와 연계된 연관 키워드와 관련된 연관 키워드 관련 공공데이터에 상기 연관점수를 부여하고, 연관점수가 부여된 공공데이터에 선호점수를 부여함으로써 생성될 수 있다.

또한, 상기 (c) 단계는, 상기 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 상기 사용자에게 더 제공할 수 있다.

또한, 상기 (c) 단계는, 상기 추천 공공데이터가 제공되는 사이트에 대한 상기 사용자의 접근 방식에 따라 상기 추천 공공데이터를 공공데이터의 추천 유형별로 달리 제공하되, 상기 공공데이터의 추천 유형은 이슈 추천, 트랜드 추천, 개인 맞춤 추천 및 연관 추천을 포함하고, 상기 접근 방식은 상기 사용자가 공공데이터 검색시에 이용한 검색어의 사용로그 정보 및 상기 사용자에 의해 선택된 공공데이터의 검색 이동 경로 정보 중 적어도 하나를 고려하는 것일 수 있다.

또한, 상기 (c) 단계는, 미리 입력된 이벤트 관련 정보에 기초하여 상기 이슈 추천 또는 상기 트랜드 추천에 따른 공공데이터를 제공하고, 미리 입력된 상기 사용자의 정보에 기초하여 상기 개인 맞춤 추천에 따른 공공데이터를 제공하며, 상기 사용자로부터 입력된 검색어에 기초하여 상기 검색어와 관련된 연관 키워드 및 상기 검색어와 연관된 공공데이터를 제공할 수 있다.

한편, 본원의 일 실시예에 따른 공공데이터 추천 장치는 공공데이터 관련 기초데이터를 수집하는 수집부, 상기 기초데이터에 포함된 공공데이터에 대하여, 기설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 산출하여 추천 목록을 생성하는 생성부, 및 생성된 상기 추천 목록에 기반하여 상기 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 상기 추천 공공데이터를 사용자에게 제공하는 제공부를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 추천점수에 기반한 추천 공공데이터 및/또는 추천 연관 키워드 제공을 통해 사용자가 입력한 검색어와 연관성이 높은 연관 검색어를 제공하여 공공데이터의 이용을 보다 활성화시킬 수 있을 뿐만 아니라, 검색 결과로서 활용성이 높은 데이터가 상위에 배치되도록 하여 사용자가 요구하는 정보를 보다 빠르게 제공받을 수 있도록 할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 사용자의 접근 방식에 따라 추천 공공데이터를 공공데이터의 추천 유형별로 달리 제공함으로써 사용자에게 보다 맞춤화된 공공데이터 추천 서비스를 제공할 수 있다.

또한 본원은 공공데이터의 효율적 추천을 통해 사용자로 하여금 개방 사이트에 지속적인 재방문을 유도하고 이를 통해 개방사이트의 경쟁력을 강화 시킬 수 있다.

또한, 본원은 전체 공공데이터 중 관련성이 높고 활용성이 높은 공공데이터를 우선적으로 제공함으로써, 사용자가 일일이 검색하지 않고도 사업화 아이템 창출을 위한 매시업(Mashup) 서비스의 지원을 극대화 시킬 수 있다.

또한, 본원은 개방사이트를 방문하는 사용자들로 하여금 실시간으로 변하는 사용자의 요구사항을 반영하여 사용자가 원하는 공공데이터를 보다 손쉽게 제공받을 수 있도록 할 수 있다.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.

도 1은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)를 포함한 전체 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)의 구성을 개략적으로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 선호점수 산출을 위한 기 설정된 선호도 산출 조건에 따른 선호 값 기준 예를 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 공공데이터와의 관계를 데이터 레벨까지 확대하여 사용자가 궁금해하거나 예측되는 공공데이터를 추천하는 예를 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 추천 연관 키워드를 식별하기 위해 항목과 코드명에 기초하여 연관성을 검토한 예를 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 이슈 추천을 위해 이슈 관련 주요 이벤트를 관리하는 화면의 예를 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 트랜드 추천을 위해 트랜드 관련 이벤트를 관리하는 화면의 예를 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 개인 맞춤 추천을 위해 사용자 관련 정보를 입력 받을 수 있는 사용자 정보 입력 화면의 예를 나타낸 도면이다.
도 9는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 연관 추천 정보가 표시된 화면의 예를 나타낸 도면이다.
도 10은 본원의 일 실시예에 따른 공공데이터 추천 방법에 대한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우 뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우 뿐만 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)를 포함한 전체 시스템의 구성을 개략적으로 나타낸 도면이고, 도 2는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)의 구성을 개략적으로 나타낸 도면이다.

도 1 및 도 2를 참조하면, 본원의 일 실시예에 따른 공공데이터 추천 장치(200)를 포함한 전체 시스템은 공공데이터 추천 장치(200) 및 사용자 단말(100)을 포함할 수 있다.

사용자 단말(100)은 네트워크(1)를 통해 공공데이터 제공 장치(200)로부터 공공데이터를 제공받을 수 있다.

일 예로, 사용자 단말(100)은 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(WCode Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC, 데스크탑 PC, 노트북, 웨어러블 디바이스 등의 장치일 수 있으며, 이에 한정되는 것은 아니다.

또한, 일 예로 네트워크(1)는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.

공공데이터 추천 장치(200)는 수집된 공공데이터 관련 기초데이터에 기반하여 선호점수, 연관점수 및 관심점수를 산출할 수 있으며, 이에 기반하여 협업 필터링(Collaborative Filtering, CF) 기반의 피어슨 상관관계(Pearson Correlation)를 이용한 기계학습을 통해 추천 목록을 생성할 수 있다. 이후 공공데이터 추천 장치(200)는 생성된 추천 목록에 기반하여 복수의 공공데이터 중 적어도 일부를 추천 공공데이터로 산출한 후, 산출된 추천 공공데이터를 사용자 단말(100)에 제공할 수 있다. 이때, 공공데이터 추천 장치(200)는 추천 공공데이터를 사용자 단말(100)로 제공할 때, 사용자의 접근 방식에 따라 공공데이터의 추천 유형별(예를 들어, 이슈 추천, 트랜드 추천, 개인 맞춤 추천, 연관 추천)로 추천 공공데이터를 달리 제공할 수 있다.

또한, 공공데이터 제공 장치(200)는 추천 공공데이터 외에 사용자가 입력한 검색어와 관련된 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 사용자 단말(100)로 제공할 수 있다. 이에 따라, 공공데이터 제공 장치(200)는 추천 공공데이터 및/또는 추천 연관 키워드를 포함하는 추천 데이터를 네트워크(1)를 통해 사용자 단말(100)로 제공할 수 있다.

공공데이터 제공 장치(200)는 공공데이터를 제공하는 복수의 공공기관들 또는 복수의 공공기관들 각각에 대응하는 서버로부터 공공데이터를 수집하는 서버 또는 장치일 수 있다. 공공데이터 제공 장치(200)에 대한 보다 자세한 설명은 다음과 같다.

공공데이터 제공 장치(200)는 수집부(210), 생성부(220), 제공부(230)를 포함할 수 있다.

수집부(210)는, 공공데이터 관련 기초데이터(330)를 수집할 수 있다.

수집부(210)는, 공공데이터 관련 기초데이터로서, 다양한 공공 기관에서 제공하는 공공데이터에 대한 메타정보, Open API 활용로그, 검색 키워드 정보, 사용 로그 및 검색을 통하여 선택된 최종 공공데이터까지의 이동 경로 로그(검색 Path 로그) 등을 포함하는 로그 데이터를 포함할 수 있다. 또한, 수집부(210)는 기초데이터로서 사용자 정보(예를 들어, 나이, 거주지역, 성별 등)를 포함할 수 있다. 수집부(210)를 통해 수신된 기초데이터는 기계학습(machine learning, 머신러닝)을 위한 학습 데이터로 활용될 수 있다.

또한, 수집부(210)는 기계학습의 정확도를 높이기 위해 복수의 개방사이트 각각의 로그데이터를 Open API 방식으로 수집할 수 있다. 또한, 수집부(210)는 개방사이트의 담당자 등에 의하여 생성된 이슈 정보나 트랜드 정보(이슈/트랜드 정보)를 수집할 수 있다. 또한, 수집부(210)는 공공데이터 추천 장치(200)에 의하여 제공되는 추천 데이터(즉, 추천 공공데이터, 추천 연관 키워드)에 대한 적중률을 검증하고, 이를 추천 데이터를 산출하는 추천 프로세스에 다시 반영하기 위한 추천 적중 로그를 포함할 수 있다.

다음으로, 생성부(220)는 후술할 제공부(230)를 통해 추천 데이터를 산출하기에 앞서, 먼저 추천 데이터의 산출을 위해 추천 DM 프로세스(700)를 통해 기초데이터(330)를 추천 데이터 마트(Data Mart, DM)에 기록(또는 적재)할 수 있다.

이때, 추천 데이터 마트는 기초데이터에 대하여 선호도 산출 조건에 기반한 선호점수를 고려한 선호DM을 포함할 수 있다. 또한, 추천 데이터 마트는 선호DM을 기준으로 하여 각 공공데이터별 키워드 기반의 연관성에 기반한 연관점수를 고려한 연관 DM을 포함할 수 있다. 또한, 추천 데이터 마트는 선호DM을 기준으로 하여 이슈 관리나 트랜드 관리를 통해 기술된 키워드 및/또는 공공데이터 정보에 기반한 관심점수를 고려한 트랜드 DM을 포함할 수 있다. 즉, 일 예로 추천 데이터 마트는 선호 DM, 연관 DM 및 트랜드 DM 중 적어도 하나를 포함하는 형태로 구성될 수 있으며, 이에 기초하여, 생성부(220)는 선호 DM, 연관DM 및 트랜드 DM를 포함하는 추천 데이터 마트의 속성을 고려하여 기초데이터(330)를 추천 데이터 마트에 기록할 수 있다. 여기서, 선호 DM에는, 선호점수를 부여하기 위한 관점별로(즉 기 설정된 선호도 산출 조건별로) 집계데이터를 생성함으로써 선호점수가 부여된 공공데이터가 기록될 수 있으며, 보다 구체적인 설명은 후술하여 설명하기로 한다. 또한, 추천 데이터 마트에는 기초데이터가 데이터 셋(Data Set)으로 저장될 수 있다.

생성부(220)는 추천 데이터 마트에 기록된 기초데이터(또는 학습 데이터, 데이터 셋)를 기반으로 하여, 기초데이터에 포함된 공공데이터에 대하여 선호점수, 연관점수 및 관심점수를 포함하는 추천점수를 산출할 수 있다.

또한, 생성부(220)는 산출된 추천점수에 기반하여 추천 목록(즉, 추천 데이터 목록, 추천 키워드 연관 목록)을 생성할 수 있다. 구체적으로, 생성부(220)는 추천 프로세스(550)를 수행함으로써 추천 공공데이터 관련 추천 데이터 목록(502, 504)을 생성할 수 있다. 여기서, 추천 데이터 목록은 추천 공공데이터 목록이라 달리 표현할 수 있다. 또한, 생성부(220)는 추천 데이터 마트에 기록된 기초데이터에 기반하여 키워드 그룹핑 프로세스(450)를 수행함으로써 추천 연관 키워드 관련 추천 키워드 연관 목록(402, 404)을 생성할 수 있다. 이때, 생성부(220)는 선호점수, 연관점수 및 관심점수를 포함하는 추천점수를 기반으로 하여, 협업 필터링(Collaborative Filtering, CF) 기반의 피어슨 상관관계(Pearson Correlation)를 이용한 기계학습(400, 500)을 통해 추천 목록으로서 추천 데이터 목록(502, 504) 및/또는 추천 키워드 연관 목록(402, 404)을 생성할 수 있다.

한편, 각 점수(선호점수, 연관점수, 관심점수)에 대한 구체적인 산출 예는 다음과 같다.

생성부(220)는 기초데이터(330)에 포함된 공공데이터에 대하여, 기 설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 산출할 수 있다. 여기서, 기 설정된 선호도 산출 조건은 공공데이터를 제공하는 개방사이트에서의 분류체계(Classification, 또는 카테고리), 공공데이터의 조회수(즉, 데이터셋의 View 건수), 공공데이터의 다운로드 수(즉, 데이터 셋 다운로드 수), 공공데이터의 개방일(OpenDate) 및 공공데이터의 평점(Grade Average)을 포함할 수 있다. 이는 도 3을 참조하여 보다 쉽게 이해될 수 있다.

도 3은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 선호점수 산출을 위한 기 설정된 선호도 산출 조건에 따른 선호 값 기준 예를 나타낸 도면이다.

도 3을 참조하면, 공공데이터 추천 장치(200)에는 카테고리, View, 다운로드, 데이터 개방일 및 평점을 포함하는 선호도 산출 조건 각각에 대하여 선호 비교에 따른 선호 값의 기준이 미리 설정되어 있을 수 있다. 일 예로, 데이터 개방일로부터 현재까지의 날짜가 30일 이하인 경우는 선호 값의 기준이 1로 정의되고, 30일 초과 40일 이하인 경우는 선호 값의 기준이 0.8로 정의될 수 있다. 또한, 공공데이터(즉, 데이터 셋)의 다운로드 횟수가 100회 이상인 경우는 선호 값의 기준이 1로 부여되고, 90회 이상 100회 미만인 경우에는 선호 값의 기준이 0.8로 정의될 수 있다. 이러한 기준에 기반하여, 생성부(220)는 미리 설정된 기준 설정 값에 기반하여 공공데이터에 대한 선호점수를 산출할 수 있다. 또한, 생성부(220)는 선호도 산출 조건 각각에 대하여 산출된 선호 값의 합계 값을 선호점수로 산출할 수 있다. 한편, 선호점수 산출을 위한 미리 설정된 선호 값의 기준은 각 개방사이트의 특성, 학습 데이터의 양 및 로그 관리 방식 등에 따라 달리 설정될 수 있다.

또한, 생성부(220)는 분류체계(또는 카테고리), 조회수, 다운로드수, 개방일 및 평점(또는 별점) 외에도 개방사이트의 담당자에 의하여 설정된 가중치 설정값, 공공데이터 콘텐츠 연관 정보, 연관 클릭 hit 정보, IP 기반 ITEM 정보 등을 고려하여 선호점수 및/또는 연관점수를 산출할 수 있다. 또한, 생성부(220)는 소셜미디어 상에서 인기 유행어 정보, 이벤트 시점 정보(예를 들어, 일자, 시간 등)를 고려하여 관심점수를 산출할 수 있으며, 이에 한정되는 것은 아니다.

또한, 선호점수는 공공데이터의 활용 가능성이 높은 것을 식별하기 위한 수단으로서 활용될 수 있다. 달리 표현하여, 선호점수는 활용성이 높은 공공데이터일수록 높은 점수가 부여될 수 있다. 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 선호점수에 기반하여 공공데이터를 제공함에 따라, 공공데이터의 추천 유형(110, 120, 130, 140)별로 활용성이 높을 것으로 예측되는 공공데이터를 사용자에게 우선으로 제공할 수 있다.

또한, 생성부(220)는 추천점수 산출시에 기초데이터에 포함된 공공데이터에 대하여 사회 변동성이 고려된 관심점수를 고려하여 산출할 수 있다. 이에 따라 생성부(220)는 선호점수 및 관심점수를 고려하여 추천 목록을 생성할 수 있다. 여기서, 관심점수는 국가 행사, 사회 관심사(즉, 전국민 관심사), 시대적 이슈 및 트랜드 중 적어도 하나를 포함하는 사회 변동성 관련 이벤트에 속한 실생활 관련 공공데이터일수록 높은 점수가 부여될 수 있다.

여기서, 사회 변동성 관련 이벤트에 속한 실생활 관련 공공데이터는, 일 예로 메르스(질병정보, 병의원정보 등), 경주지진(대피소 위치정보 등), 올림픽(체육관 위치, 스포츠 강의정보 등), 명절(명절 재래시장, 무료개방주차장 정보 등) 등과 같이 실생활과 밀접한 관련이 있으면서도 주기적 또는 긴급 이슈가 되는 관심사에 대한 공공데이터일 수 있다.

관심점수는 전국민 관심사에 대해서 실시간으로 반응하여 공공데이터를 추천하기 위한 수단으로서 활용될 수 있다. 실생활과 밀접한 관련이 있거나 유용한 공공데이터의 추천을 위해서는 국가적 행사, 전국민 관심사 등에 따라 공공데이터의 추천에 대한 우선순위를 조정할 필요성이 있다. 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 이와 같은 특수성(즉, 전국민 관심사나 이슈, 트랜드 등의 특수한 이벤트)을 고려하여 사용자에게 제공되는 추천 데이터의 가중치를 조정하기 위해 추천 유형을 고려한 PACK(502, 402) 식별자를 이용할 수 있다. 이때, PACK 식별자는 전체 공공데이터의 학습 정보를 포함할 수 있다. 이러한 PACK 식별자에 의하여 사용자에게 제공되는 활용성이 높은 공공데이터의 순위는 달라질 수 있다. 한편, 관심점수의 부여를 위해 개방사이트의 담당자는 별도의 트랜드 관리, 이벤트 관리 등을 수행할 수 있다.

또한, 생성부(220)는 추천점수 산출시 사용자로부터 입력 받은 검색어에 기반한 콘텐츠 레벨에서의 연관성이 고려된 연관점수를 고려하여 산출할 수 있다. 즉, 연관점수는 공공데이터의 콘텐츠 레벨에서의 연관성을 점수로 부여하기 위한 수단으로 활용될 수 있다. 생성부(220)는 선호점수, 관심점수 및 연관점수를 고려하여 추천 목록을 생성할 수 있다.

또한, 생성부(220)는 기초데이터에 포함된 공공데이터의 메타정보에 기반하여 식별되고 사용자가 입력한 검색어와 연계된 연관 키워드와 관련된 연관 키워드 관련 공공데이터에 연관점수를 부여할 수 있다. 구체적으로, 생성부(220)는 사용자로부터 검색어가 입력되면, 입력된 검색어와 연계된 연관 키워드를 식별하고, 이후 식별된 연관 키워드와 관련된 공공데이터(즉, 연관 키워드 관련 공공데이터)를 식별할 수 있으며, 식별된 공공데이터에 연관점수를 부여할 수 있다. 이후 생성부(220)는 연관점수가 부여된 공공데이터에 선호점수를 부여함으로써 추천 목록을 생성할 수 있다. 여기서, 검색어와 관련된 연관 키워드 관련 공공데이터는, 사용자가 입력한 검색어의 키워드를 직접적으로 포함하고 있는 공공데이터 및 사용자가 입력한 검색어의 키워드를 직접적으로 포함하고 있지는 않지만 실제 콘텐츠에 해당 키워드를 포함하고 있는 공공데이터를 포함할 수 있다. 또한, 생성부(220)는 식별된 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 사용자에게 제공할 수 있다. 이는 도 4를 통해 보다 쉽게 이해될 수 있다.

도 4는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 공공데이터와의 관계를 데이터 레벨까지 확대하여 사용자가 궁금해하거나 예측되는 공공데이터를 추천하는 예를 나타낸 도면이다.

도 4를 참조하면, 도 4에서 사용자로부터 '어린이'에 대한 검색어가 입력되었다고 가정하자. 이때, 생성부(220)는 사용자가 입력한 검색어의 키워드를 직접적으로 포함하고 있는 공공데이터로서 '어린이 놀이시설'에 대응하는 공공데이터와 '어린이보호구역'에 대응하는 공공데이터를 추천 목록(즉, 추천 데이터 목록)에 포함시킬 수 있다. 또한, 생성부(220)는 검색어의 키워드를 직접적으로 포함하고 있지는 않지만 실제 콘텐츠에 해당 키워드를 포함하고 있는 공공데이터로서 '성범죄자 알림e'에 대응하는 공공데이터와 '실종신고'에 대응하는 공공데이터를 추천 목록에 포함시킬 수 있다.

여기서, '성범죄자 알림e'와 '실종신고'에 대응하는 공공데이터의 경우에는 실제 콘텐츠에 '“어린이'라는 중요 단어가 포함되어 있고 실제로 상당한 수의 데이터가 존재하는바, 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 사용자가 '어린이'라는 키워드로 검색을 수행했을 때 '어린이놀이시설', '어린이보호구역' 외에도 '성범죄자 알림e' 및 '실종신고' 정보를 함께 추천 공공데이터로서 제공함으로써 사용자로 하여금 보다 활용성 높고 유용한 정보를 제공받을 수 있도록 할 수 있다.

또한, 도 4에서 생성부(220)는 추천 공공데이터 외에 추천 연관 키워드를 함께 제공할 수 있다. 이때 추천 연관 키워드는 사용자가 입력한 검색어와 관련된 복수의 연관 키워드 중 적어도 일부일 수 있다. 일 예로, 검색어 '어린이'와 관련된 추천 연관 키워드로는 아동, 놀이시설, 실종신고 및 성범죄자가 제공될 수 있다.

또한, 추천 연관 키워드는 콘텐츠 레벨에서 추출될 수 있다. 이를 위해 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 사용자로부터 입력된 검색어의 키워드를 공공데이터의 메타정보에 등록할 수 있으며, 이에 기초하여 데이터 셋으로 저장된 기초데이터에서 추천 연관 키워드에 해당하는 그룹을 식별함으로써 추천 연관 키워드를 제공할 수 있다. 또한, 공공데이터 추천 장치(200)는 추천 연관 키워드에 해당하는 그룹이 식별된 이후 해당 그룹에 포함된 공공데이터에 대하여 선호점수를 적용함으로써 활용성이 높은 공공데이터를 추천 공공데이터로 제공할 수 있다.

또한, 추천 연관 키워드를 추천 연관 키워드를 식별함에 있어서 추가로, 생성부(220)는 공공데이터가 가진 항목을 키워드와 결합시켜 항목에서의 연관성을 검토할 수 있다. 또한 생성부(220)는 코드성 항목이 가진 코드명의 연관성을 검토할 수 있다. 또한 생성부(220)는 텍스트 데이터에 대한 형태소 추출을 통해 연관성을 검토할 수 있다. 또한 생성부(220)는 검색엔진과 연계하여 연관성을 검토할 수 있다. 상기의 예는 본원의 이해를 돕기 위한 하나의 실시예일 뿐, 이에 한정되는 것은 아니다. 연관성의 추가 검토 예는 도 5를 통해 보다 쉽게 이해될 수 있다.

도 5는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 추천 연관 키워드를 식별하기 위해 항목과 코드명에 기초하여 연관성을 검토한 예를 나타낸 도면이다.

도 5를 참조하면, 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 생성부(220)는, 추천 연관 키워드를 식별함에 있어서 공공데이터와의 관계를 데이터 레벨까지 확대하기 위해 항목 단위 키워드 및/또는 데이터 단위 키워드를 추가로 추출할 수 있다. 일 예로, 생성부(220)는 항목 단위 키워드에 기반한 연관성 추출시 OpenAPI 서비스 기준으로 공공데이터ID, 공공데이터명, 항목ID, 항목명, 항목타입, 항목길이 및 출력순서 등을 고려하여 연관성을 추출할 수 있다. 또한, 생성부(220)는 코드 기반의 연관성 추출시에 OpenAPI 서비스 기준으로 공공데이터ID, 공공데이터명, 그룹코드, 그룹코드명, 세부코드, 세부코드명 및 출력순서 등을 고려하여 연관성을 추출할 수 있다.

다음으로, 제공부(230)는 생성부(220)에 의하여 추천 목록(즉, 추천 데이터 목록, 추천 키워드 연관 목록)이 생성된 이후 추천 목록에 기반하여 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 추천 공공데이터를 사용자 단말(100)에 제공할 수 있다. 또한, 제공부(230)는 추천 목록에 기반하여 사용자가 입력한 검색어와 관련된 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 사용자 단말(100)에 제공할 수 있다. 여기서, 사용자 단말(100)에 제공되는 추천 공공데이터 및/또는 추천 연관 키워드는 추천 데이터라 할 수 있다.

한편, 제공부(230)는 선호점수, 관심점수 및 연관점수를 고려하여 생성된 추천 데이터 목록(즉, 추천 공공데이터 목록)에 기반하여 사용자에게 제공될 추천 공공데이터를 산출하기 위해, 각 추천 유형(PACK)별로 적용할 협업 필터링(CF)의 유형에 따른 공공데이터의 선호 결과를 제1 마트 결과로서 산출할 수 있다. 또한, 제공부(230)는 추천 키워드 연관 목록에 기반하여 사용자에게 제공될 추천 연관 키워드를 산출하기 위해, 각 추천 유형(PACK)별로 적용할 협업 필터링(CF)의 유형에 따른 키워드 선호 결과를 제1 마트 결과로서 산출할 수 있다. 이후 제공부(230)는 산출된 제1 마트 결과에 기반하여 CF 유형별 선호점수를 산출할 수 있다. 또한, 제공부(230)는 최종 선호점수(달리 말해, 최종 추천점수)를 산출하기 위해, 앞서 산출된 CF 유형별 선호점수에 기반하여 대용량 학습 작업 오픈 소스인 아파치 머하웃(Apache Mahout)을 호출함으로써 추천 데이터(즉, 추천 공공데이터, 추천 연관 키워드)를 산출할 수 있다.

또한, 제공부(230)가 사용자에게 제공하는 추천 데이터는, 사용자의 접근 방식(또는 접근 경로)에 따라 활용성이 높은 공공데이터(즉, 최종 선호점수(최종 추천점수)가 높은 공공데이터)를 우선으로 제공하기 위한 제1 추천 데이터(달리 말해, 추천 대상 데이터셋) 유형과 사용자가 선택한 공공데이터 중 활용성이 높은 데이터를 추가적으로 제공하기 위한 제2 추천 데이터(달리 말해, 추천 결과 데이터셋) 유형을 포함할 수 있다. 일 예로, 도 1에서 추천 결과 셋(504)의 추천 대상 데이터셋은 제1 추천 데이터 유형을, 연관 대상 데이터셋은 제2 추천 데이터 유형을 나타낼 수 있다. 또한, 도 1에서 연관 결과 셋(404)의 기준 키워드는 제1 추천 데이터 유형을, 연관 키워드는 제2 추천 데이터 유형을 나타낼 수 있다.

또한, 제공부(230)는 추천 공공데이터가 제공되는 사이트에 대한 사용자의 접근 방식에 따라 추천 공공데이터 및/또는 추천 연관 키워드를 공공데이터의 추천 유형별로 달리 제공할 수 있다. 여기서, 공공데이터의 추천 유형으로는 이슈 추천(110), 트랜드 추천(120), 개인 맞춤 추천(130) 및 연관 추천(140)을 포함할 수 있다. 또한, 사용자의 접근 방식이라 함은, 사용자가 공공데이터 검색시에 이용한 검색어의 사용로그 정보 및 사용자에 의해 선택된 공공데이터의 검색 이동 경로 정보(즉, 선택된 최종 공공데이터까지의 이동 경로) 중 적어도 하나를 고려하는 것을 의미할 수 있다.

또한, 제공부(230)는 미리 입력된 이벤트 관련 정보에 기초하여 이슈 추천 또는 트랜드 추천에 따른 공공데이터를 사용자 단말(100)로 제공할 수 있다. 또한, 제공부(230)는 미리 입력된 사용자의 정보에 기초하여 개인 맞춤 추천에 따른 공공데이터를 사용자 단말(100)로 제공할 수 있다. 또한, 제공부(230)는 사용자로부터 입력된 검색어에 기초하여 상기 검색어와 관련된 연관 키워드 및 검색어와 연관된 공공데이터를 사용자 단말(100)로 제공할 수 있다. 이에 대한 보다 구체적인 설명은 하기 도 6 내지 도 9를 통해 보다 쉽게 이해될 수 있다.

도 6은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 이슈 추천을 위해 이슈 관련 주요 이벤트를 관리하는 화면의 예를 나타낸 도면이다.

도 6을 참조하면, 이슈 관련 주요 이벤트(예를 들어, 명절, 국가 행사, 재난, 스포츠 등) 정보는 개방사이트의 담당자에 의한 입력에 의하여 획득될 수 있다.

도 6과 같이 이슈 관련 주요 이벤트가 미리 입력된 경우, 제공부(230)는 이슈 관련 주요 이벤트 기간 내에 사용자가 개방사이트에 접속하면 이슈 관련 주요 이벤트와 관련된 공공데이터를 사용자 단말(100)의 메인 화면에 우선적으로 제공할 수 있다. 종래의 개방사이트는 사용자의 클릭 수에 기반하여 공공데이터를 추천하기 때문에 사용자가 실생활과 밀접한 관련이 있는 이슈 관련 공공데이터를 손쉽게 접하지 못하는 단점이 있다. 반면, 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 미리 입력된 이슈 관련 이벤트 정보에 기반으로 하여 이슈와 연관된 공공데이터 중에서도 추천점수에 기초하여 활용성이 높은 데이터를 자동으로 추천하여 제공할 수 있는바, 사용자가 원할 것으로 예상되는 공공데이터를 우선적으로 손쉽게 접할 수 있게 할 수 있다.

제공부(230)는 활용(추천) 프로세스(600)를 통하여 도 1에서의 추천 결과 셋(504)의 결과 값에 미리 입력된 이슈 관련 주요 이벤트 정보를 고려함으로써 이슈 추천(110) 관련 추천 데이터를 산출할 수 있으며, 산출된 이슈 추천(110) 관련 추천 데이터를 사용자 단말(100)로 제공할 수 있다.

도 7은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 트랜드 추천을 위해 트랜드 관련 이벤트를 관리하는 화면의 예를 나타낸 도면이다.

도 7을 참조하면, 트랜드 관련 주요 이벤트(예를 들어, 총리지명, 경주지진, 메르스, 개헌, 탄핵 등) 정보는 개방사이트의 담당자에 의한 입력에 의하여 획득될 수 있다. 또한 트랜드 관련 주요 이벤트 정보는 주요 포털사이트와의 연계를 통한 인기 키워드 등의 정보 입수를 통해 획득될 수 있다.

도 7과 같이 트랜드 관련 주요 이벤트가 미리 입력된 경우, 제공부(230)는 트랜드 관련 주요 이벤트와 관련된 공공데이터를 사용자 단말(100)의 메인 화면에 우선적으로 제공할 수 있다. 예를 들어, 경주에 지진이 났을 때 사용자가 본원의 일 실시예에 따른 공공데이터 추천 장치(200)가 적용되는 개방사이트에 접속한 경우, 제공부(230)는 지진대피소와 관련된 공공데이터 정보를 사용자 단말(100)에 우선으로 제공할 수 있다. 이를 통해, 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 지진에 대응하여 사용자의 안전을 위한 활용성 높은 정보를 보다 빠르게 제공할 수 있다. 일 예로, 공공데이터 추천 장치(200)에 사용자 정보와 관련하여 '지역' 정보가 미리 저장되어 있는 경우, 공공데이터 추천 장치(200)는 사용자가 로그인을 수행했을 때 미리 입력된 지역 정보를 고려하여 해당 지역과 관련된 공공데이터를 활용성이 높은 순으로 제공할 수 있다. 이를 통해, 공공데이터 추천 장치(200)는 유용한 공공데이터의 활용이 보다 빠르고 효율적으로 이루어지게 할 수 있다.

제공부(230)는 활용(추천) 프로세스(600)를 통하여 도 1에서의 추천 결과 셋(504)의 결과 값에 미리 입력된 트랜드 관련 주요 이벤트 정보를 고려함으로써 트랜드 추천(120) 관련 추천 데이터를 산출할 수 있으며, 산출된 트랜드 추천(120) 관련 추천 데이터를 사용자 단말(100)로 제공할 수 있다.

도 8은 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 개인 맞춤 추천을 위해 사용자 관련 정보를 입력 받을 수 있는 사용자 정보 입력 화면의 예를 나타낸 도면이다.

도 8을 참조하면, 공공데이터 추천 장치(200)는 사용자로부터 사용자 정보로서 이름, 성별, 나이, 생년, 지역, 직업, 관심 키워드, 이용목적 및 분류체계 등의 개인정보를 입력 받을 수 있다. 이때, 공공데이터 추천 장치(200)는 “공공데이터의 제공 및 이용 활성화에 관한 법률”에 위배되지 않는 한에서 사용자의 개인정보를 획득할 수 있다.

도 8과 같이 사용자 정보가 미리 입력된 경우, 제공부(230)는 미리 입력된 사용자의 정보에 기초하여 개방시스템에 로그인한 사용자에 대하여 맞춤정보를 우선적으로 제공할 수 있다. 예를 들어, 사용자의 이용목적이 취업이고 성별이 여자이며 직업이 주부인 경우, 공공데이터 추천 장치(200)는 여성 일자리 정보와 관련된 공공데이터를 우선적으로 제공할 수 있다. 또한, 공공데이터 추천 장치(200)는 사용자의 정보로서 SMS 정보, 메일 주소 정보 등을 수집할 수 있으며, 이에 기초하여 추천 데이터를 문자 알림, 메일 알림 등의 형태로 제공할 수 있다. 이러한 본원은 사용자 편의를 위한 다양한 서비스를 제공함으로써 공공데이터의 이용을 활성화시킬 수 있다. 또한, 본원은 사용자의 개인정보에 기반하여 사용자에게 맞춤화된 맞춤 추천 서비스를 제공할 수 있다.

제공부(230)는 활용(추천) 프로세스(600)를 통하여 도 1에서의 추천 결과 셋(504)의 결과 값에 미리 입력된 사용자의 정보를 고려함으로써 개인 맞춤 추천(130) 관련 추천 데이터를 산출할 수 있으며, 산출된 개인 맞춤 추천(130) 관련 추천 데이터를 사용자 단말(100)로 제공할 수 있다.

도 9는 본원의 일 실시예에 따른 공공데이터 추천 장치(200)에서 연관 추천 정보가 표시된 화면의 예를 나타낸 도면이다.

도 9를 참조하면, 공공데이터 추천 장치(200)는 추천 연관 키워드로서 사용자가 입력한 검색어와 관련된 연관 검색어를 제공할 수 있다. 또한 공공데이터 추천 장치(200)는 추천 공공데이터로서 사용자가 관심있어 하는 공공데이터와 관련된 연관 공공데이터를 제공할 수 있다.

일예로, 공공데이터 추천 장치(200)는 도 4에서 추천 연관 키워드를 제공하는 방식과 마찬가지로, 사용자로부터 '어린이'에 대한 검색어가 입력된 경우 키워드 그룹핑 프로세스(450)에 의하여 산출된 키워드 연관 결과 셋(404)에 기반하여 검색 결과로서 '어린이'와 관련된 연관 검색어(즉, 추천 연관 키워드)를 사용자 단말(100)로 제공할 수 있다. 어린이와 관련된 연관 검색어로는 일 예로 시설종류, 시설명, 정원수 등의 키워드가 제공될 수 있다.

또한, 공공데이터 추천 장치(200)는 사용자로부터 '어린이'에 대한 검색어가 입력된 경우, 추천 프로세스(550)에 의하여 산출된 추천 결과 셋(504)에 기반하여 검색 결과로서 '어린이'에 관련된 연관 공공데이터(즉, 추천 공공데이터)를 제공할 수 있다. 어린이에 관련된 연관 공공데이터는 일 예로 영유아 복지시설(어린이집) 현황과 관련된 연관 데이터 셋이 제공될 수 있다.

이러한 본원의 일 실시예에 따른 공공데이터 추천 장치(200)는 기초데이터에 기반하여 기계학습을 통해 추천점수를 산출함으로써 추천 목록을 생성할 수 있고, 생성된 추천 목록에 기반하여 적어도 일부를 추천 데이터로서 추천할 수 있다.

또한, 공공데이터 추천 장치(200)는 공공데이터 추천을 위한 기초데이터(330)를 수집한 후 추천 프로세스(450, 550)를 통해 추천 목록(즉, 추천 데이터 목록, 추천 키워드 연관 목록)을 생성할 수 있다. 이때, 추천 키워드(310) 연관 목록에는 키워드별 공공데이터의 랭킹 정보 및 키워드 간 연관 랭킹 정보 등이 반영될 수 있으며, 추천 데이터(320) 목록에는 공공데이터 활용 랭킹 정보 및 공공데이터 간 연관 랭킹 정보 등이 반영될 수 있다. 이후, 공공데이터 추천 장치(200)는 생성된 추천 목록에 기초하여 이슈추천(110), 트랜드 추천(120), 개인 맞춤추천(130) 및 연관추천(140)을 포함하는 추천 유형별 추천 데이터(즉, 추천 공공데이터, 추천 연관 키워드)를 접속 페이지의 로그인 여부를 고려하여 단일 또는 복수로 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 사용자의 접근 방식에 따라 다양한 추천 서비스를 제공할 수 있다. 또한, 공공데이터 추천 장치(200)는 공공데이터의 추천을 위해 활용성이 높은 공공데이터의 우선순위를 결정할 수 있으며, 또한 공공데이터의 추천을 위해 연관성이 높은 키워드의 집단을 식별할 수 있다. 이때, 공공데이터 추천 장치(200)는 연관성이 높은 키워드의 집단을 식별함에 있어서 사용자가 입력한 검색어와 사용자가 최종으로 접근한 공공데이터에 기반하여 공공데이터의 콘텐츠 단위에서의 연관성을 고려해 기계학습을 수행함으로써 유사한 키워드 그룹을 식별할 수 있으며, 이에 따라 사용자 맞춤 추천 정보를 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 개방사이트의 접속 초기화면에 현재의 이슈나 트랜드와 관련된 공공데이터를 자동으로 제공하거나 또는 분야와 상관없이 활용성이 높은 공공데이터를 우선적으로 제공함으로써 다양한 추천 서비스를 제공할 수 있다. 또한, 공공데이터 추천 장치(200)는 사용자가 입력한 검색어의 사용로그에 기초하여 활용성이 높은 공공데이터 및/또는 연관 검색어(연관 키워드)를 제공할 수 있다. 또한, 공공데이터 추천 장치(200)는 사용자가 로그인한 경우 미리 입력된 사용자 정보에 기초하여 사용자 맞춤 추천을 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 공공데이터의 활용성 판단시에 사용자의 활용로그와 사용자가 어떤 검색어를 통해 접근했는지 여부 등을 고려할 수 있다. 또한, 공공데이터 추천 장치(200)는 공공데이터의 활용성 판단시에 최신 이슈, 트랜드, 국가적 행사 등 실생활과 관련된 주제(즉, 사회 변동성 관련 이벤트)의 유형을 고려하여 그 활용성을 달리 판단할 수 있으며, 사용자의 접근 방식에 따라 활용성이 높은 순으로 데이터(즉, 공공데이터, 키워드)를 추천할 수 있다.

또한, 공공데이터 추천 장치(200)는 종래 개방사이트의 정적인 콘텐츠 제공 기술의 문제점을 해결하기 위해, 시대적 이슈, 실시간 시민들의 주요 관심과 같이 실생활과 밀접하고 활용성이 높은 데이터를 우선적으로 추천할 수 있는 기계학습 기반의 공공데이터 추천 서비스를 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 개방사이트에 접속하고 로그인한 사용자에 대해서 사용자의 관심사항과 연관된 공공데이터를 우선적으로 추천할 수 있는 기계학습 기반의 개인 맞춤 서비스를 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 사용자의 의도를 가장 잘 표현한 검색어를 기반으로 하여 도출된 연관 검색어 그룹을 기계학습을 통해 사전에 정의할 수 있으며, 이에 기초하여 해당 연관 검색어 그룹에 속한 공공데이터들을 활용성이 높은 순으로 제공함에 따라 기계학습 기반의 데이터 맞춤 추천 서비스를 제공할 수 있다.

또한, 공공데이터 추천 장치(200)는 최종적으로 사용자 중심의 맞춤 추천 서비스를 제공하기 위해 기계학습을 이용하여 사용자가 원하는 공공데이터를 예측하여 우선적으로 추천할 수 있으며, 이에 따라 공공데이터에 대한 이용 활성화를 극대화 시킬 수 있다.

또한, 공공데이터 추천 장치(200)는 사용자로 하여금 실시간으로 변하는 사용자의 요구사항을 반영한 실시간 맞춤 추천 서비스를 제공함으로써, 사용자 자신의 관심 콘텐츠를 적시에 손쉽고 편리하게 제공받을 있게 할 수 있음에 따라 사용자의 만족도를 높일 수 있다.

또한, 공공데이터 추천 장치(200)는 공공데이터 개방사이트 사용자에게 차별화된 맞춤형 추천 서비스를 제공함에 따라 사용자 친화성을 강화하고 이를 통해 사용자로 하여금 지속적인 재방문을 유도함으로써, 공공데이터의 이용 활성화를 통한 개방사이트의 경쟁력을 강화 시킬 수 있다.

또한, 공공데이터 추천 장치(200)는 사용자가 공공데이터를 스스로 찾아 활용하는 것이 아닌, 사용자의 목적에 부합되는 공공데이터를 기계학습을 통해 사전에 유추하여 제공함으로써, 공공데이터의 이용 활성화를 극대화 시킬 수 있다.

또한, 공공데이터 추천 장치(200)는 실생활에 밀접하거나 국가적, 사회적 관심사에 해당하는 공공데이터를 적시에 제공함에 따라 국민의 삶을 편하게 하는데 일조 할 수 있다. 일예로, 공공데이터 추천 장치(200)는 메르스가 유행했을 때 메르스 관련 병의원 정보, 질병정보, 예방정보 등을 사용자가 여러 단계를 거쳐 어렵게 접할 수 있게 하는 것이 아니라 사용자가 본원의 공공데이터 추천 장치(200)가 적용되는 개방사이트를 단순 접속하는 것 만으로도 해당 정보를 손쉽게 접할 수 있도록 할 수 있다. 이를 통해 사용자로 하여금 전염 예방, 국민 건강 지킴에 일조할 수 있다.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.

도 10은 본원의 일 실시예에 따른 공공데이터 추천 방법에 대한 동작 흐름도이다.

도 10에 도시된 공공데이터 추천 방법은 앞서 설명된 공공데이터 추천 장치(200)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 공공데이터 추천 장치(200)에 대하여 설명된 내용은 공공데이터 추천 방법에 대한 설명에도 동일하게 적용될 수 있다.

도 10을 참조하면, 단계S1010에서는 공공데이터 관련 기초데이터를 수집할 수 있다.

다음으로, 단계S1020에서는 기초데이터에 포함된 공공데이터에 대하여 기설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 산출하여 추천 목록을 생성할 수 있다. 여기서, 선호 점수는 활용성이 높은 공공데이터일수록 높은 점수가 부여될 수 있다. 또한, 기 설정된 선호도 산출 조건은 공공데이터를 제공하는 개방사이트에서의 분류체계, 공공데이터의 조회수, 공공데이터의 다운로드 수, 공공데이터의 개방일 및 공공데이터의 평점을 포함할 수 있다.

또한, 추천 점수는 기초데이터에 포함된 공공데이터에 대하여 사회 변동성이 고려된 관심점수를 포함할 수 있으며, 단계S1020에서 추천 목록은 선호점수 및 관심점수를 고려하여 생성될 수 있다.

또한, 관심점수는 국가 행사, 사회 관심사, 시대적 이슈 및 트랜드 중 적어도 하나를 포함하는 사회 변동성 관련 이벤트에 속한 실생활 관련 공공데이터일수록 높은 점수가 부여될 수 있다. 달리 말해, 관심점수는 복수의 공공데이터 중 사회 변동성 관련 이벤트와 관련된 공공데이터에 대하여 부여될 수 있다.

또한, 단계S1020에서 추천 목록은 복수의 이벤트 유형에 속한 실생활 관련 공공데이터의 경우 복수의 이벤트 유형의 발생 시점에 따라 관심점수를 차등 부여함으로써 생성될 수 있다. 일예로, 특정 공공데이터가 제1 이벤트와 제2 이벤트에 중복하여 관련이 있고 제1 이벤트가 다음주에 발생되고 제2 이벤트가 한달 후에 발생되는 것으로 가정하면, 현 시점을 기준으로 하여 상기 공공데이터에는 상대적으로 제2 이벤트와 관련된 관심점수 보다 제1 이벤트와 관련하여 높은 관심점수가 부여될 수 있다. 이와 같이, 동일한 공공데이터라고 하더라도 현 시점을 기준으로 하여 사용자에게 그 공공데이터의 활용 가능성 또는 필요성이 높은 이벤트와 관련하여 높은 관심점수를 부여할 수 있다. 또 다른 일예로, 금주의 월요일 내지 금요일 기간 동안에는 제1 이벤트가 발생되고 금주의 금요일에 제2 이벤트가 발생되는 등 특정 기간에 복수의 이벤트가 중복되어 있다고 가정하고, 복수의 공공데이터 중 제1 이벤트 및 제2 이벤트와 관련된 공공데이터로서 교통 관련 공공데이터가 존재한다고 가정하자. 여기서, 복수의 공공데이터 중 교통 관련 공공데이터에는 관심점수가 부여될 수 있는데, 이때, 교통 관련 공공데이터의 관심점수는 상대적으로 한 개의 이벤트가 발생하는 금주의 월요일 내지 목요일 기간과 연계하여 두 개의 이벤트에 속하는 금주의 금요일과 연계한 것 보다 더 높은 점수가 부여될 수 있다. 이와 같이, 동일한 공공데이터라고 하더라도 이벤트의 발생 시점을 기준으로 복수의 이벤트가 동시에 발생하는 기간에는 사용자에게 그 공공데이터의 활용 가능성 또는 필요성이 높을 가능성이 높으므로, 상대적으로 해당 기간과 관련하여 높은 관심점수를 부여할 수 있다. 이와 같은 예는 본원의 이해를 돕기 위한 하나의 실시예일 뿐, 이에 한정되는 것은 아니다.

또한, 추천 점수는 사용자로부터 입력 받은 검색어에 기반한 콘텐츠 레벨에서의 연관성이 고려된 연관점수를 포함할 수 있으며, 단계S1020에서 추천 목록은 선호점수, 관심점수 및 연관점수를 고려하여 생성될 수 있다.

또한, 단계S1020에서 추천 목록은 기초데이터에 포함된 공공데이터의 메타정보에 기반하여 식별된 검색어와 관련된 연관 키워드 관련 공공데이터에 연관점수를 부여하고, 연관점수가 부여된 공공데이터에 선호점수를 부여함으로써 생성될 수 있다.

또한, 단계S1020에서 추천 목록은 선호점수, 관심점수 및 연관점수에 기반하여 협업 필터링(Collaborative Filtering, CF) 기반의 피어슨 상관관계(Pearson Correlation)를 이용한 기계학습을 통해 산출될 수 있다.

다음으로, 단계S1030에서는 단계S1020에서 생성된 추천 목록에 기반하여 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 추천 공공데이터를 사용자에게 제공할 수 있다.

또한, 단계S1030에서는 단계S1020에서 식별된 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 사용자에게 제공할 수 있다.

또한, 단계S1030에서는 추천 공공데이터가 제공되는 사이트에 대한 사용자의 접근 방식에 따라 추천 공공데이터를 공공데이터의 추천 유형별로 달리 제공할 수 있다. 여기서, 공공데이터의 추천 유형은 이슈 추천, 트랜드 추천, 개인 맞춤 추천 및 연관 추천을 포함할 수 있다. 또한, 접근 방식은 사용자가 공공데이터 검색시에 이용한 검색어의 사용로그 정보 및 사용자에 의해 선택된 공공데이터의 검색 이동 경로 정보 중 적어도 하나를 고려하는 것일 수 있다.

또한, 단계S1030에서는 미리 입력된 이벤트 관련 정보에 기초하여 이슈 추천 또는 트랜드 추천에 따른 공공데이터를 제공하고, 미리 입력된 상기 사용자의 정보에 기초하여 개인 맞춤 추천에 따른 공공데이터를 제공하며, 사용자로부터 입력된 검색어에 기초하여 검색어와 관련된 연관 키워드 및 검색어와 연관된 공공데이터를 제공할 수 있다.

상술한 설명에서, 단계 S1010 내지 S1030은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본원의 일 실시 예에 따른 공공데이터 추천 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 전술한 공공데이터 추천 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

100: 사용자 단말
200: 공공데이터 추천 장치
210: 수집부
220: 생성부
230: 제공부

Claims

공공데이터 추천 방법에 있어서,
(a) 공공데이터 관련 기초데이터를 수집하는 단계;
(b) 상기 기초데이터에 포함된 공공데이터에 대하여, 기 설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 기반으로 하여 협업 필터링(Collaborative Filtering) 기반의 피어슨 상관관계(Pearson Correlation)를 이용한 기계학습을 통해 추천 목록을 생성하는 단계; 및
(c) 생성된 상기 추천 목록에 기반하여 상기 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 상기 추천 공공데이터를 사용자에게 제공하는 단계,
를 포함하고,
상기 추천점수는, 공공데이터를 제공하는 개방사이트의 담당자에 의해 미리 입력된 국가 행사, 사회 관심사, 시대적 이슈 및 트랜드 중 적어도 하나를 포함하는 사회 변동성 관련 이벤트와 관련된 공공데이터에 대하여 부여되는 관심점수를 더 포함하고,
상기 (b) 단계에서는, 상기 공공데이터와 관련된 이벤트의 수가 증가할수록 상기 공공데이터의 관심점수가 높게 부여되고,
상기 (b) 단계에서, 상기 추천 목록은 상기 선호점수 및 상기 관심점수를 고려하여 생성되며, 복수의 이벤트 유형에 속한 공공데이터의 경우 상기 복수의 이벤트 유형의 발생 시점에 따라 관심점수를 차등 부여함으로써 생성되는 것인, 공공데이터 추천 방법.
제1항에 있어서,
상기 (b) 단계에서는, 상기 사용자에게 우선 제공되도록 하기 위해 사용자 활용로그를 포함하는 상기 기초데이터에 대하여 수행된 기계학습을 기반으로 하여 상기 공공데이터의 활용성이 높아질수록 상기 공공데이터의 선호점수를 높게 부여하는 것인, 공공데이터 추천 방법.
제1항에 있어서,
상기 기 설정된 선호도 산출 조건은,
공공데이터를 제공하는 개방사이트에서의 분류체계, 공공데이터의 조회수, 공공데이터의 다운로드 수, 공공데이터의 개방일 및 공공데이터의 평점을 포함하는 것인, 공공데이터 추천 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 추천점수는,
상기 사용자로부터 입력 받은 검색어에 기반한 콘텐츠 레벨에서의 연관성이 고려된 연관점수를 더 포함하고,
상기 (b) 단계에서, 상기 추천 목록은 상기 선호점수, 상기 관심점수 및 상기 연관점수를 고려하여 생성되는 것인, 공공데이터 추천 방법.
제7항에 있어서,
상기 (b) 단계에서, 상기 추천 목록은 상기 기초데이터에 포함된 공공데이터의 메타정보에 기반하여 식별되고 검색어와 연계된 연관 키워드와 관련된 연관 키워드 관련 공공데이터에 상기 연관점수를 부여하고, 연관점수가 부여된 공공데이터에 선호점수를 부여함으로써 생성되는 것인, 공공데이터 추천 방법.
제8항에 있어서,
상기 (c) 단계는,
상기 연관 키워드 중 적어도 일부를 추천 연관 키워드로서 상기 사용자에게 더 제공하는 것인, 공공데이터 추천 방법.
제1항에 있어서,
상기 (c) 단계는,
상기 추천 공공데이터가 제공되는 사이트에 대한 상기 사용자의 접근 방식에 따라 상기 추천 공공데이터를 공공데이터의 추천 유형별로 달리 제공하되,
상기 공공데이터의 추천 유형은 이슈 추천, 트랜드 추천, 개인 맞춤 추천 및 연관 추천을 포함하고,
상기 접근 방식은 상기 사용자가 공공데이터 검색시에 이용한 검색어의 사용로그 정보 및 상기 사용자에 의해 선택된 공공데이터의 검색 이동 경로 정보 중 적어도 하나를 고려하는 것인, 공공데이터 추천 방법.
제10항에 있어서,
상기 (c) 단계는,
미리 입력된 이벤트 관련 정보에 기초하여 상기 이슈 추천 또는 상기 트랜드 추천에 따른 공공데이터를 제공하고,
미리 입력된 상기 사용자의 정보에 기초하여 상기 개인 맞춤 추천에 따른 공공데이터를 제공하며,
상기 사용자로부터 입력된 검색어에 기초하여 상기 검색어와 관련된 연관 키워드 및 상기 검색어와 연관된 공공데이터를 제공하는 것인, 공공데이터 추천 방법.
공공데이터 추천 장치에 있어서,
공공데이터 관련 기초데이터를 수집하는 수집부;
상기 기초데이터에 포함된 공공데이터에 대하여, 기 설정된 선호도 산출 조건이 고려된 선호점수를 포함하는 추천점수를 기반으로 하여 협업 필터링(Collaborative Filtering) 기반의 피어슨 상관관계(Pearson Correlation)를 이용한 기계학습을 통해 추천 목록을 생성하는 생성부; 및 생성된 상기 추천 목록에 기반하여 상기 공공데이터 중 적어도 일부를 추천 공공데이터로 산출하고, 산출된 상기 추천 공공데이터를 사용자에게 제공하는 제공부,
를 포함하고,
상기 추천점수는, 공공데이터를 제공하는 개방사이트의 담당자에 의해 미리 입력된 국가 행사, 사회 관심사, 시대적 이슈 및 트랜드 중 적어도 하나를 포함하는 사회 변동성 관련 이벤트와 관련된 공공데이터에 대하여 부여되는 관심점수를 더 포함하고,
상기 제공부를 통해 제공되는 상기 추천 공공데이터는, 상기 추천 공공데이터에 대한 사용자의 접근 방식에 따른 상기 추천 공공데이터의 로그 데이터의 기계학습이 고려된 공공데이터이고,
상기 생성부는, 상기 공공데이터와 관련된 이벤트의 수가 증가할수록 상기 공공데이터의 관심점수를 높게 부여하고, 상기 선호점수 및 상기 관심점수를 고려하여 상기 추천 목록을 생성하며, 복수의 이벤트 유형에 속한 공공데이터의 경우 상기 복수의 이벤트 유형의 발생 시점에 따라 관심점수를 차등 부여함으로써 상기 추천 목록을 생성하는 것인, 공공데이터 추천 장치.
제1항 내지 제3항, 제7항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.