KR102252096B1

KR102252096B1 - 빅데이터 기반 회의록 가공 서비스 제공 시스템

Info

Publication number: KR102252096B1
Application number: KR1020200021300A
Authority: KR
Inventors: 조일상
Original assignee: (주)폴리티카
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-05-17

Abstract

빅데이터 기반 회의록 가공 서비스 제공 시스템이 제공되며, 국회 회의록을 검색하기 위한 적어도 하나의 검색어를 입력받고, 입력된 적어도 하나의 검색어에 대한 검색결과를 텍스트, 이미지 및 영상을 포함한 콘텐츠로 수신하여 출력하는 사용자 단말, 및 국회 정보 제공 서버로부터 적어도 하나의 국회 회의록을 수집하여 저장하는 데이터베이스화부, 수집된 적어도 하나의 국회 회의록을 의안정보와 회의록정보로 분류하는 분류부, 회의록정보가 포함된 기 설정된 포맷파일로부터 텍스트를 추출하는 추출부, 회의록정보로부터 의안별 발언자 및 발언내용 텍스트를 추출하여 업로드하는 업로드부, 사용자 단말에서 적어도 하나의 검색어가 입력된 경우, 적어도 하나의 검색어를 포함하는 검색결과를 사용자 단말로 전송하는 전송부를 포함하는 회의록 가공 서비스 제공 서버를 포함한다.

Description

빅데이터 기반 회의록 가공 서비스 제공 시스템{SYSTEM FOR PROVIDING BIGDATA BASED MINUTES PROCESS SERVICE}

본 발명은 빅데이터 기반 회의록 가공 서비스 제공 시스템에 관한 것으로, 국회 회의록의 키워드를 추출하여 데이터베이스화함으로써 검색어 기반으로 원하는 자료를 검색할 수 있는 플랫폼을 제공한다.

제4차 산업혁명시대의 핵심 기술인 빅데이터는 사회변화와 기술혁신의 연결고리로 인간과 사회, 자연과 사물에 기술을 접목시켜 만들어낸 초연결성 네트워크의 모든 정보들의 집합체이다. 이러한 방대한 양의 빅데이터는 존재 자체가 갖는 의미보다는 수집과 분석, 공유를 통하여 무엇을 분석하고 어떻게 해석하느냐에 대한 통찰이 전제되어야 미래를 예측할 수 있다. 정치 영역에서의 빅데이터도 마찬가지인데, IT기술의 발전과 확산은 정당, 정치인, 유권자 모두의 정치적 인식과 행위에 영향을 줌으로써 정치과정의 패러다임을 변화시키고 있다. 정치 영역에서의 빅데이터에 대한 접근은 인간에 대한 정보와 상호작용이라는 점에서 정치적 커뮤니케이션 차원에서 바라보고, 정치 빅데이터 활용을 정치권력의 획득과 유지를 위한 정치활동으로 여론형성과 선거 등 정치과정 차원에서 개발하고 있다.

이때, 정치 분야에서 여론파악을 위하여 트랜드를 빅데이터에 기반하여 파악하는 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2015-0050943호(2015년05월11일 공개)에는, 분석대상어휘가 포함된 데이터를 선택하고, 최다노출어휘를 선정한 후 가중치를 부여하여 구간노출횟수 및 최근노출빈도를 추출하고, 추출된 분석대상어휘와 트랜드어휘가 일치하는 경우 일치비율을 표시하는 구성을 개시한다.

다만, 상술한 구성은 정계에서 민심을 읽거나 트랜드를 읽을 때 사용되는 것이지, 국민이 국회에서 발생하는 일들을 확인할 수 있는 수단이 전혀 아니다. 흔히 국민들은 국회에서 하는 일은 어렵고 파악하기 힘들다고 생각하고, 실제로 국회에서 제공하는 자료도 몇 시간에 걸쳐 작성된 회의록이 정리나 요약없이 단순 텍스트 나열형식으로 제공되고 있으며, 발의안이나 개정안을 찾아보거나 현재 어느 단계를 거치고 있는지 등을 파악하거나 현행법과 비교하기 위해서는 한 글자에도 그 해석과 조건 및 결과가 달라지는 법률을 한 글자 한 글자 확인하면서 비교를 해야 한다. 또한, 제공되는 파일의 포맷 자체도 텍스트를 바로 수집할 수 있는 형태가 아니라 한글파일 또는 PDF 파일 등으로 텍스트를 추출하기 어렵거나 추출하더라도 재편집이 요구되는 파일로 제공되고 있기 때문에, 정보를 파악하고 가공하는데 걸림돌로 작용하고 있다.

본 발명의 일 실시예는, 국회 회의록을 수집하여 텍스트 파일로 변환하고, 변환된 텍스트 내에서 키워드를 추출하여 워드 클라우드(Word Cloud)로 시각화함으로써 장시간에 걸쳐 발언한 내용을 모두 읽지 않아도 핵심내용을 파악할 수 있으며, 의안의 처리절차를 아이콘으로 표기하고 현재 심사진행단계를 표시해주고, 의안의 내용을 기 설정된 레이아웃 및 프레임 내에 정리하여 보여줌으로써 가독성 및 직관성을 높일 수 있으며, 날짜별로 처리안건, 부의안건 및 접수의안과 발의한 제안자 목록을 리스트업하여 전문가가 아닌 일반인도 쉽게 내용과 흐름을 파악할 수 있도록 하는, 빅데이터 기반 회의록 가공 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 국회 회의록을 검색하기 위한 적어도 하나의 검색어를 입력받고, 입력된 적어도 하나의 검색어에 대한 검색결과를 텍스트, 이미지 및 영상을 포함한 콘텐츠로 수신하여 출력하는 사용자 단말, 및 국회 정보 제공 서버로부터 적어도 하나의 국회 회의록을 수집하여 저장하는 데이터베이스화부, 수집된 적어도 하나의 국회 회의록을 의안정보와 회의록정보로 분류하는 분류부, 회의록정보가 포함된 기 설정된 포맷파일로부터 텍스트를 추출하는 추출부, 회의록정보로부터 의안별 발언자 및 발언내용 텍스트를 추출하여 업로드하는 업로드부, 사용자 단말에서 적어도 하나의 검색어가 입력된 경우, 적어도 하나의 검색어를 포함하는 검색결과를 사용자 단말로 전송하는 전송부를 포함하는 회의록 가공 서비스 제공 서버를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 국회 회의록을 수집하여 텍스트 파일로 변환하고, 변환된 텍스트 내에서 키워드를 추출하여 워드 클라우드(Word Cloud)로 시각화함으로써 장시간에 걸쳐 발언한 내용을 모두 읽지 않아도 핵심내용을 파악할 수 있으며, 의안의 처리절차를 아이콘으로 표기하고 현재 심사진행단계를 표시해주고, 의안의 내용을 기 설정된 레이아웃 및 프레임 내에 정리하여 보여줌으로써 가독성 및 직관성을 높일 수 있으며, 날짜별로 처리안건, 부의안건 및 접수의안과 발의한 제안자 목록을 리스트업하여 전문가가 아닌 일반인도 쉽게 내용과 흐름을 파악할 수 있다.

도 1은 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 회의록 가공 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서세 있어서 국회 회의록으로 명명되었지만, 국회 뿐만 아니라, 기업, 단체, 기관 등의 회의록을 모두 포함하는 개념으로 정의되어야 하며, 열거되지 않은 이유로 배제되지 않는다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 빅데이터 기반 회의록 가공 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 회의록 가공 서비스 제공 서버(300), 적어도 하나의 국회 정보 제공 서버(400)를 포함할 수 있다. 다만, 이러한 도 1의 빅데이터 기반 회의록 가공 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 회의록 가공 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 회의록 가공 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 국회 정보 제공 서버(400)와 연결될 수 있다. 또한, 적어도 하나의 국회 정보 제공 서버(400)는, 네트워크(200)를 통하여 회의록 가공 서비스 제공 서버(300)와 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

적어도 하나의 사용자 단말(100)은, 빅데이터 기반 회의록 가공 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 회의록을 검색하는 사용자의 단말일 수 있다. 그리고, 적어도 하나의 사용자 단말(100)은, 날짜별, 심사진행상황별, 발의가부별 등으로 나누어진 리스트를 출력하는 단말일 수 있다. 또한, 적어도 하나의 사용자 단말(100)은, 키워드를 워드 클라우드 형태로 시각화하여 출력하는 단말일 수 있다.

여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

회의록 가공 서비스 제공 서버(300)는, 빅데이터 기반 회의록 가공 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 회의록 가공 서비스 제공 서버(300)는, 적어도 하나의 국회 정보 제공 서버(400)로부터 국회 회의록을 웹크롤러를 이용하여 수집하는 서버일 수 있다. 또한, 회의록 가공 서비스 제공 서버(300)는, 수집된 국회 회의록을 기 설정된 분류자에 의해 의안정보와 회의록정보로 분류하고, 회의록정보가 담긴 파일의 포맷을 식별한 후 텍스트 파일로 변환하는 서버일 수 있다. 그리고, 회의록 가공 서비스 제공 서버(300)는, 회의록 내의 발언자와 발언내용을 구분하여 구분자를 태깅하고, 발언내용 중 키워드를 추출하여 태그를 태깅하는 서버일 수 있다. 또한, 회의록 가공 서비스 제공 서버(300)는, 추출된 키워드를 이용하여 워드 클라우드를 생성하는 서버일 수 있고, 각 의안별로 내용과 진행상태를 알 수 있도록 기 설정된 레이아웃 내에 포함된 프레임에 자동으로 데이터를 입력하여 포맷을 완성하는 서버일 수 있다. 그리고, 회의록 가공 서비스 제공 서버(300)는, 날짜별로 국회 의사 일정을 출력하고, 각 일정이 선택되는 경우, 회의록과 연동시켜 주요 논의 키워드를 이용하여 워드 클라우드를 출력하고, 적어도 하나의 태그를 덧붙여서 한 눈에 직관적으로 내용을 파악할 수 있도록 하는 서버일 수 있다. 또한, 회의록 가공 서비스 제공 서버(300)는, 국회 회의록 중 발언자 및 발언내용을 각각의 표로 정리하여 출력함으로써, 장시간 걸쳐 진행되었던 회의내용을 파악할 수 있도록 구성하는 서버일 수 있다.

여기서, 회의록 가공 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 국회 정보 제공 서버(400)는, 빅데이터 기반 회의록 가공 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하거나 이용하지 않고 회의록 가공 서비스 제공 서버(300)로 국회 회의록을 제공하는 서버일 수 있다. 국회 정보 제공 서버(400)에서 직접 능동적으로 회의록 가공 서비스 제공 서버(300)로 정보를 주기보다는, 회의록 가공 서비스 제공 서버(300)에서 웹크롤링을 수행하는 경우가 대부분이므로, 국회 정보 제공 서버(400)의 구성은 삭제되어도 무방하다. 또한, 발명의 상세한 설명의 전제부에 기재된 것과 같이 국회 회의록 뿐만 아니라 기업이나 단체, 각 기관 등의 회의록도 처리가 가능하므로, 회의록을 수집할 수 있는 서버라면 그 어느 것이든 가능하다 할 것이다.

여기서, 적어도 하나의 국회 정보 제공 서버(400)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 국회 정보 제공 서버(400)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 국회 정보 제공 서버(400)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 회의록 가공 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 회의록 가공 서비스 제공 서버(300)는, 데이터베이스화부(310), 분류부(320), 추출부(330), 업로드부(340), 전송부(350), 빅데이터화부(360), 의사일정부(370), 의안정보부(380), 및 회의록제공부(390)를 포함할 수 있다.

본 발명의 일 실시예에 따른 회의록 가공 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100), 및 적어도 하나의 국회 정보 제공 서버(400)로 빅데이터 기반 회의록 가공 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100), 및 적어도 하나의 국회 정보 제공 서버(400)는, 빅데이터 기반 회의록 가공 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100), 및 적어도 하나의 국회 정보 제공 서버(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.

도 2를 참조하면, 데이터베이스화부(310)는, 국회 정보 제공 서버(400)로부터 적어도 하나의 국회 회의록을 수집하여 저장할 수 있다. 이때, 데이터베이스화부(310)는, 웹 크롤러(Web Crawler)를 이용할 수 있는데, 웹 크롤러란 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 웹 크롤링(web crawling) 혹은 스파이더링(spidering)이라 부르며 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 크게 일반 웹크롤러와 분산 웹 크롤러가 있다. 웹 크롤러의 기본 동작을 설명하면, 우선 URL 프론티어(Frontier) 모듈에서 URL을 가져와 http 프로토콜을 사용해 해당 URL의 웹 페이지를 가져오는 것으로 시작한다. 그런 다음 패치(Fetch) 모듈에서 임시 저장소에 웹 페이지를 저장하고, 파서(Parser) 모듈에서 텍스트와 링크를 추출을 하고 텍스트는 인덱서(Indexer)에 보내진다. 링크의 경우는 URL 프론티어에 추가되어야 하는지에 대해 Content Seen, URL Filter, Duplication URL Element 모듈들을 거치면서 판단하게 된다.

이때, 웹 문서를 전부를 일반 웹 크롤러로 크롤링 한다는 것은 사실상 불가능하기 때문에 분산 웹 크롤러를 더 사용할 수 있다. 분산 웹 크롤러는 크게 2가지로 나누어지는데 그 중 하나가 중앙 집중식(Centralized) 방식이고 다른 하나는 P2P(or Fully-Distributed) 방식이다. 중앙 집중식 분산 웹 크롤러는 URL 매니저가 서버와 같은 역을 수행하고, 크롤러가 클라이언트 역을 하는 구조이다. 크롤러에서 문서를 다운로드 받고 아웃링크(OutLink) URL을 추출하여 URL 매니저에게 넘겨주면 URL 매니저는 다운로드 받은 문서의 URL인지 검사하여 URL 중복을 제거를 한다. 즉 일반 웹 크롤러에서 URL 중복과 URL 관리를 하는 부분을 URL 매니저가 대신 해 주는 것이다. 한편, P2P 방식은 각 Crawler가 완전 독립적인 구조를 가진다. P2P 방식은 각각의 크롤러가 일반 웹 크롤러처럼 동작을 한다. 각각의 크롤러는 문서를 다운로드 받고 OutLink URL을추출하고 URL 중복제거까지 모두 각각의 크롤러가 독립적으로 동작한다. 이렇게 하기 위해서는 각각의 크롤러에서 관리하는 다운로드 받은 URL 목록은 서로 배타적이어야 한다. 그렇지 않으면 서로 다른 크롤러에서 같은 문서를 다운로드 받는 현상이 발생할 것이다. 이것을 해결하는 방법으로 각각의 크롤러는 다운로드 받을 URL 도메인(Domain)을 서로 배타적으로 나눠서 관리할 수 있다. 즉, 자신이 다운로드 도메인에 속하는 것만 관리하고 나머지 URL은 다른 크롤러에게 넘기는 방법인데, 이러한 방법을 이용하는 경우 각각의 크롤러가 독립적으로 동작할 수 있다.

그 다음은 웹 콘텐츠를 추출해야 하는데, 웹 콘텐츠 추출 기술은 웹 문서로부터 정보 분석에 활용될 콘텐츠인 제목, 작성자, 게시일, 본문을 자동으로 추출하는 기능을 제공한다. 웹 콘텐츠 추출 시스템은 콘텐츠를 추출하는 규칙을 자동 생산해 콘텐츠만을 추출하는 장치로 콘텐츠 추출 규칙을 자동 생성하는 규칙 생성기(Rule Generator), 주어진 웹 문서에서 내비게이션 콘텐츠를 제거하는 내비게이션 콘텐츠 제거기(Navigation Content Eliminator), 콘텐츠 추출 규칙 키워드 유사도 비교를 통해 콘텐츠를 추출하는 콘텐츠 추출기(Core Context Extractor)로 구성될 수 있다. 이때, 본 발명에서는 가격비교 사이트의 검색 결과인 각 URL을 모두 수집하고 이를 방문하여 다시 해당 URL에서 상술한 웹 콘텐츠 추출을 수행해야 하기 때문에 헤드없는 브라우저(Headless Browser)를 구성할 수 있다. 그리고, 멀티미디어 데이터 수집과 검색결과에 포함된 URL을 수집하기 위해, 각 URL이 포함되어 있는 좌표와 상대적 위치를 함께 정의할 수 있다.

분류부(320)는, 수집된 적어도 하나의 국회 회의록을 의안정보와 회의록정보로 분류할 수 있다. 여기서, 의안정보는, 의안일자, 종류, 상임위, 차수, 의안명, 대표발의의원, 및 공동발의의원을 포함하는 정보일 수 있다. 이때, 분류부(320)는 국회 회의록을 두 가지로 분류한 후, 각각의 정보를 추출하기 위하여, 즉 빅데이터 구축을 위하여 자연어처리를 우선적으로 시행해야 한다. 여기서, 분류부(320)는, 파일포맷 내에서 텍스트를 추출하는 것에서부터 시작한다. 회의록은 대부분 발언내용이 구어체로 이루어져있기 때문에 언어 데이터 속에 포함되어 있는 다른 언어들의 수, 다른 단어나 문장과 함께 사용되는 빈도분포 그리고 그 언어 문자 종류의 반도분포 등 언어 데이터가 가지는 각종의 통계 데이터를 수집 분석을 실시해야 한다. 또, 컴퓨터에 자연어를 읽고 이해시키는 자연어이해 시스템(Natural Language Understanding System)의 구성이 요구될 수 있다. 각종 포털 사이트는 단순히 검색어를 입력하면 이를 답변해주는 형식으로 되어 있지만, 자연어인 문장으로 입력하는 경우 등을 고려하면 자연어처리가 분류부(320)에서 선행되어야 한다.

이를 위하여, 분류부(320)는, 텍스트 분류(Text Classification)를 수행할 수 있다. 우선, 분류부(320)는, 텍스트 분류를 위한 전단계, 즉 전처리를 수행하는데, 형태소를 분석한 뒤, 분석에 필요한 명사, 형용사, 동사를 선별할 수 있다. 이때, 한국어 처리기로 정규화, 토큰화, 어근화, 어구 추출 과정을 통해 주어진 국회 회의록에 형태소를 태깅(tagging)하고 불용어나 불필요한 품사는 제거할 수 있다. 자연어처리에서 텍스트 분류는 문장, 문단 또는 글을 어떤 카테고리에 분류하는 작업을 뜻하는데, 텍스트 분류의 입력은 자연어 문장이나 문단 혹은 문서가 들어오기 때문에, 입력이 들어오면서 출력은 이 문장이 어떤 카테고리에 속하는지를 판별해야 한다. 문장은 일련의 토큰(Token)으로 구성되어 있다. 텍스트 토큰은 주관적, 임의적인 성격을 갖고 있으며, 이 토큰을 나누는 기준은 다양하다. 공백, 형태소, 어절, 비트숫자 등이 있을 수 있다. 컴퓨터에게 단어를 숫자로 표현하기 위해서, 단어장을 만들고, 중복되지 않는 인덱스(Index)로 바꾼다. 궁극적으로 모든 문장을 일련의 정수로 바꿔주는데, 이를 인코딩(Encoding)이라고 한다. 하지만 관계없는 숫자의 나열로 인코딩하는 것은 아무런 의미가 없으므로, 각 토큰을 연속 벡터 공간(Continuous Vector Space)에 투영하는 방법을 이용하는데, 이를 단어 임베딩(Embedding)이라고도 한다.

워드 임베딩은 텍스트를 구성하는 단어를 수치화 하는 방법이다. 단어를 R차원의 벡터로 매핑하는 것을 말한다. 이를 위하여, CBoW(Continuous Bag-of-Words)를 이용할 수 있다. CBoW는 단어장을 단어 주머니로 보게 되고, 이에 따라 단어의 순서는 무시한다. 즉, 토큰 순서에 관계없이 그냥 벡터로 가정하는 것인데, 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구한다. 이 결과는 3차원 공간라면 하나의 점으로 나타내어지며 이 점이 문장의 의미를 결정하게 된다. 공간상에서 가까우면 비슷한 의미, 아니면 멀리 떨어지게 된다. 또는, RN(Relation Network)를 이용할 수도 있다. 단어 순서와 각 단어들의 관계를 이해하기 위해서인데, RN은 문장 안에 있는 모든 토큰(Pairs)을 보고, 각 쌍에 대해서 신경망을 만들어서 문장 표현을 찾는다. 즉 토큰의 대표를 찾는 것인데, 이 과정을 거치고 난 후 벡터가 산출되면 이들의 평균값을 찾는다. 그 이후는 신경망에서 사용하는 학습 방법과 동일하다. 이에 더하여, CNNConvolutional Neural Network)을 추가적으로 이용할 수 있다. CNN으로 자연어처리를 하게 되면 데이터를 계층적으로 보기 때문에, 풍부한 의미 정보를 포함하는 추상화된 표현도 파악할 수 있게 된다. 또, RNN(Recurrent Neural Network)이 더 부가될 수 있는데, RNN은, 문장의 정보를 시간의 순서에 따라 압축할 수 있다.

추출부(330)는, 회의록정보가 포함된 기 설정된 포맷파일로부터 텍스트를 추출할 수 있다. 분류부(320)에서 품사, 의미, 주제, 분류자 등의 카테고리가 매핑되어 임베딩이 되었으므로, 텍스트를 추출할 때 별도의 임베딩은 요구되지 않는다.

업로드부(340)는, 회의록정보로부터 의안별 발언자 및 발언내용 텍스트를 추출하여 업로드할 수 있다. 여기서, 본 발명의 일 실시예에 따른 웹 페이지는, 하나의 화면이 적어도 하나의 레이아웃으로 나뉘어져 있고, 레이아웃에 의해 구역이 분할되어 프레임이라는 영역이 지정되어 있으며, 각 영역마다 입력되어야 할 데이터가 상술한 텍스트 분류의 분류자로 지정이 되어 있다. 따라서, 회의록정보만 업로드되더라도 일일이 사람이 하나하나의 칸을 채우지 않아도, 자동으로 분류자에 의해 각 프레임 내로 삽입되어 데이터 입력이 완성될 수 있다.

전송부(350)는, 사용자 단말(100)에서 적어도 하나의 검색어가 입력된 경우, 적어도 하나의 검색어를 포함하는 검색결과를 사용자 단말(100)로 전송할 수 있다. 이때, 검색어는 상술한 자연어처리를 그대로 이용하여 검색에 이용할 수도 있다. 예를 들어, 사용자가 환경법이라는 단어는 알지만, 상세히 어떠한 법령이 존재하는지를 모른다고 가정한다. 한국에는 환경기본법이 없고, 환경정책기본법과 기타 법규와 시행령, 또 조례가 존재하기 때문에, 환경법을 포털검색에서 검색하는 것처럼 자연어처리를 하지 않고 그대로 입력한다면 동일한 단어가 없기 때문에 검색결과가 나오지 않거나 엉뚱한 결과가 나올 수 있다. 따라서, 전송부(350)는, 검색어의 형태소 분석부터 시작을 하게 된다. 형태소는 일정한 의미를 지닌 가장 작은 말의 단위로 문장 내에서 따로 떼어낼 수 있는 것을 나타낸다. 더 이상 분해하거나 분석하면 뜻이 없어지는 말의 가장 최소 단위로 추상적이며 다양한 형태로 나타내어질 수 있다. 자연어 처리 처리단계는 형태소 분석, 동사 분석, 의미 분석, 화용 분석으로 나눌 수 있다. 형태소 분석은 텍스트를 형태소 단위로 분석하여 출력하는 과정이다. 즉, 형태소를 비롯하여 어근, 접두사/접미사, 품사(part-of-speech, POS) 등 다양한 언어적 속성의 구조를 파악할 수 있다. 여기서, 환경법은 환경과 법이 합쳐진 합성명사이다. 이에 따라, "환경"과 "법"으로 분리할 수 있고 각각의 품사는 명사로 태깅된다.

그리고, 전송부(350)는, 단어 벡터화를 시작하게 되며, 단어 벡터화로 기 저장된 국회 회의록 간의 유클리디안 유사도를 측정함으로써, 잘못된 검색어를 입력했다고 할지라도, 마치 키워드를 입력한 것과 같은 효과를 낼 수 있다. 상술한 예에서, 키워드는 환경정책기본법이고, 검색어는 환경법이다. 여기서, 전송부(350)는, 단어 벡터화를 위하여 word2vec 모델을 이용할 수 있다. word2vec 모델은 단어를 수십~수백 차원의 벡터로 변환하여 단어의 의미를 효율적으로 추정하는 방법인데, 인공 신경망을 기반으로 둔 방식으로 같은 맥락(Context)에 있는 단어는 가까운 의미를 가진다는 전제에서 시작한다. word2vec 모델은 텍스트 문서를 통해 학습을 진행하며 문장 내에 한 단어와 같이 출현하는 다른 단어들을 관련 단어로써 인공 신경망에 학습시킨다. 연관된 단어들은 문서상에서 가까운 곳에 출현할 가능성이 높아지기 때문에 학습을 반복해 나가는 과정에서 주변 단어가 비슷한 두 단어는 가까운 벡터 공간에 놓이게 된다. word2vec 모델은 단순하게 한 단어의 앞뒤로 서로 같은 정보가 있는지 없는지를 이용하여 학습하는 것이고 아주 추상적인 동사나 형용사는 학습이 명사에 비해서 학습이 어려울 수 있지만, 수없이 많은 데이터를 보면 동사들이 어떤 목적어를 가지는지 규칙성을 파악함으로 어느 정도 동사들 간의 의미 관계도 학습이 가능하다.

word2vec 모델은 심층 신경망(DNN: Deep Neural Network)이 아니고, 활성화 함수가 적용되지 않은 은닉층 1개와 softmax function이 적용된 출력층으로 구성된 인공신경망이다. 그래서 일반적인 심층 신경망보다 학습속도가 굉장히 빨라서 매우 큰 데이터도 손쉽게 학습시킬 수 있다. word2vec 모델의 알고리즘은 내부적으로, 하나의 맥락으로 단어를 예측하는 CBOW(Continuous Bag Of Words)와 단어로 맥락을 예측하는 SG(Skip-Gram)라는 두 개의 신경망 모델을 이용해 문장을 학습하여 비슷한 의미의 단어들을 가까운 벡터 공간에 표현한다. 예를 들어, skip-gram은 w(t)가 입력 단어로 주어졌을 때, 입력 단어를 기준으로 지정된 윈도우 사이즈에 따라 앞, 뒤로 일정한 개수의 다른 단어에 대한 예측을 수행하는 것을 목표로 신경망을 훈련시킨다. 출력값은, 입력 단어 w(t)를 기준으로 주변에 올수 있는 단어 w(t-2), w(t-1), w(t+1), w(t+2)를 예측하는데 계산되는 가중치 값으로써, 가중치 값들이 w(t)를 나타내는 벡터 값이 된다. word2vec 모델은 입력단어가 주어졌을 때, 출력단어의 조건부 확률인 softmax function을 사용하여 결과 값이 최대가 되도록 학습하는 것이다. 이에 따라 word2vec 모델에서 학습 문서 내 주위 단어의 분포가 가까운 단어일수록 산출되는 벡터 값이 유사해지며, 산출된 벡터값이 비슷한 단어는 유사한 것으로 간주된다.

빅데이터화부(360)는, 데이터베이스화부에서 저장한 적어도 하나의 국회 회의록에 포함된 비정형(Unstructed) 데이터, 정형(Structured) 데이터 및 반정형 데이터(Semi-structured)를 정제하고, 메타 데이터로 분류를 포함한 전처리를 실시하고, 전처리가 실시된 데이터를 자연어처리(Natural Language Processing) 알고리즘으로 적어도 하나의 키워드를 추출하여 태그(Tag)를 태깅(Tagging)하고, 데이터 마이닝(Data Mining)을 포함하는 분석을 실시한 후 시각화하여 출력할 수 있다. 이때의 태그는 상술한 워드 임베딩의 결과물이 아니다. 즉, 워드 임베딩에서는 입력된 국회 의사록을 이해하고 데이터베이스화를 하기 위한 자연어처리과정이었다면, 빅데이터화부(360)의 태깅은 "키워드"를 태깅하는 것이 목표이다. 이때, 키워드는 검색어와는 다름은 상술한 바와 같다. 이렇게 생성된 키워드는 이후 워드 클라우드를 생성하는 단어들 중 하나가 된다. 또, 태그는 키워드와 같을 수도 있지만 다를 수도 있다. 도 4d를 참조하면, 키워드는 워드 클라우드 내에 포함된 단어이고, 태그는 도 4e의 "#" 즉 해시태그 옆에 나열된 단어 또는 문장이다. 키워드는 중요도나 빈도 등으로 선출될 수 있고, 해시태그는 국회 회의록을 설명하기 위하여 선정될 수 있다.

이에 따라, 사용자 단말(100)은, 국회 회의록을 검색하기 위한 적어도 하나의 검색어를 입력받고, 입력된 적어도 하나의 검색어에 대한 검색결과를 텍스트, 이미지 및 영상을 포함한 콘텐츠로 수신하여 출력할 수 있다. 여기서, 이미지는, 검색결과에 포함된 적어도 하나의 키워드의 출현 횟수, 출현 빈도 및 출현 주기 중 어느 하나 또는 적어도 하나의 조합에 기초하여 적어도 하나의 키워드의 크기 및 위치가 결정되는 워드 클라우드(Word Cloud)이고, 워드 클라우드는, 사용자 단말(100)에서 출력되고 있는 화면 내에 포함된 적어도 하나의 키워드에 대응하여 유동적으로 워드 클라우드 내에 포함된 적어도 하나의 키워드의 크기 및 위치가 변경될 수 있다.

국회 회의록은 몇 시간에 걸쳐 다수의 의원한 발언이 기록되기 때문에, 한 페이지에 하나의 회의에 대한 기록이 모두 기록되지는 않는다. 몇 페이지에 걸쳐 진행되게 되는데, 도 4d의 하단을 보면, 각 의원의 이름과 발언내용이 표 내에 표시되고, 페이지 번호를 보면 1 페이지에서 끝나지 않는다는 것을 알 수 있다. 이에 따라, 워드 클라우드는 전체 회의록에서 키워드를 뽑아서 출력하는 것을 기본으로 하지만, 해당 내용을 모두 읽을 수 없는 사용자들을 위하여, 1 페이지에 마우스가 올려져 있거나 스크롤이 고정되어 있으면, 1 페이지의 내용을 기반으로 키워드를 추출하고 워드 클라우드를 생성하여 출력할 수 있고, 2 페이지로 가면, 또 2 페이지의 키워드와 워드 클라우드를 출력할 수 있다. 1 페이지도 2 명의 의원만 발언을 한 것이 아니라 최소 8-9명이 발언한 내용들이 수록되기 때문에, 화면에 출력되고 있는 부분, 즉 사용자가 현재 읽고 있는 부분에 대응하는 키워드만으로 워드 클라우드를 만들 수도 있다.

의사일정부(370)는, 도 4i를 참조하면, 캘런더 이미지에 각 날짜에 발생한 본회의 또는 위원회의 일정을 표시하고, 현재 날짜를 기준으로 발생하고 있는 최근 의사 현황을 본회의 처리안건, 본회의 부의안건 및 접수의안으로 구분하여 리스트업(Listup)된 리스트를 제공할 수 있다. 이 페이지에서 리스트를 임의로 하나 선택하는 경우, 회의록 또는 의안정보 페이지로 이동하는 연동성을 제공할 수 있다. 이에 따라, 굳이 검색을 하지 않을지라도 동향만 파악하고자 할 때 첫 페이지인 의사일정 페이지(Tab)에서 해당 내용을 리스트업해줌으로써 처리안건과 부의안건, 또 접수안건이 무엇이 있는지를 확인할 수 있다.

의안정보부(380)는, 도 4e 및 도 4f와 같이, 사용자 단말(100)로부터 검색어가 입력되는 경우, 검색어를 키워드로 포함하 의안정보 리스트를 출력하고, 출력된 의안정보 리스트 중 어느 하나의 의안정보가 선택되는 경우, 의안명, 제안대수, 소관위원회, 의안종류, 의안처리구분, 발의제안자, 발의종류, 제안일자, 의결일자 및 의결결과를 포함하는 국회의안정보와, 선택된 의안정보와 기 매핑되어 저장된 기 발의된 관련의안을 포함하는 제안경위와, 접수, 의원회 심사, 본회의심의 및 의결 중 현재상태에 대응하는 심사진행상태와, 참석 대 불참 비율 및 찬성과 반대 비율을 포함하는 본회의 의결결과와, 제안이유 및 주요내용, 법률안 원문 및 신구조문대비표, 해당의안 논의된 제회의 및 주요 발언 키워드를 출력할 수 있다. 여기서, 도 4f의 제안경위에 기 발의된 관련의안을 선택하는 경우, 도 4g와 같이 관련의안이 리스트업될 수 있다.

도 2로 돌아와서, 회의록 제공부(390)는, 국회본회의, 상임위원회, 예산결산특별위원회, 특별위원회, 인사청문회, 소위원회, 국정감사, 국정조사, 공청회, 청문회 및 연석회의의 회의록을 제공하고, 제공되는 회의록의 제목(Title)과 대표발의의원을 하나의 리스트로 생성하며, 제공되는 회의록에 포함된 적어도 하나의 키워드를 태그처리하여 출력할 수 있다. 여기서, 제목은 국회 회의록에 기재된 제목을 그대로 이용할 수 있으나 변형하는 것을 배제하지는 않는다. 또, 회의록 제공부(390)는, 각 의원당 발언을 요약해주는 방법을 더 이용할 수도 있다. 국회 회의록에서 의원의 의견을 대표하는 문장을 추출할 때에는, 형태소 분석 데이터에서 최대빈도 단어와, word2vec 모델의 학습 데이터에 기초한 유사 단어를 조합하여 생성할 수 있다. 이를 위하여, 상위 키워드와 가장 유사한 단어를 word2vec 모델 학습 데이터로 이용할 수 있고, 상위 키워드로 지정된 단어에 유사 키워드 벡터값이 높을수록 두 단어 간 의미가 비슷하며 의미가 비슷한 단어를 포함한 문장을 추출하여 각 의원당 발언을 요약하는 문장으로 생성할 수 있다. 이때, 발언을 요약하는 문장을 추출 및 생성하기 위해서는, 상술한 word2vec 모델을 이용하여 중요 키워드 유사단어 학습 과정을 진행할 수 있다.

이하, 상술한 도 2의 회의록 가공 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3a를 참조하면, (a) 회의록 가공 서비스 제공 서버(300)는 적어도 하나의 국회 정보 제공 서버(400)로부터 국회 회의록을 수집하고 전처리 및 인공지능 모델링으로 빅데이터를 구축한다. 이 과정에서, 회의록 가공 서비스 제공 서버(300)는 (b)와 같은 전처리, 태깅, 키워드 추출 및 데이터베이스화의 단계를 거치게 된다.

또, (c) 회의록 가공 서비스 제공 서버(300)는, 사용자가 검색어를 입력했을 때, 검색어와 키워드 간의 유클라디안 유사도를 측정하여 일치하거나 가장 유사한 키워드를 추출하고, 추출된 키워드와 기 매핑되어 저장된 국회 회의록을 추출하여, (d) 요약, 분석 및 시각화된 자료로 사용자에게 제공하게 된다.

도 3b는 키워드 추출의 단계를 도시한 도면이다. 실제 랭킹을 이용, 예를 들어, 랭크, 키워드, 등장횟수, 등장횟수 구성비, 블랙리스트 여부 등을 이용하여 키워드를 선정 및 추출하는 종래기술은, 상대적으로 의미가 떨어지는 단어, 즉 일반적으로 국회 모든 회의에서 흔히 사용하는 단어가 키워드로 선정 및 추출될 가능성이 높다. 예를 들면, 말씀, 우리, 문제, 생각, 국민, 의원, 의견, 논의, 진행, 심사, 자료, 제출 등의 단어가 다빈 키워드로 선정 및 추출될 가능성이 높다. 이러한 경우 해당 키워드가 그 회의 및 법안의 특징적인 점을 설명해 주지 못하는 한계가 있다.

이에 따라, 본 발명의 일 실시예에서는, 통계 기반의 키워드 선정 및 추출 방법을 이용할 수 있다. 이는, 도 3b를 참조하면, ① 형태소 분석을 통한 조사, 관형사, 수사, 접속사 등 불완전 품사 제거하는 단계에서 시작된다. 이때에는, 국회 회의록 문서를 다운로드 받아 일차적으로 형태소 분석을 통하여 조사, 관형사, 수사, 접속사 등 단어 자체가 스스로 온전한 의미를 갖지 못하는 불완전 품사를 키워드 지식 구축에서 제외한다. 조사는, 저, 로, 으로, 으로써, 에, 을, 를, 에서, 와, 과, 하고, 의, 한테, 에게 등이고, 관형사는, 이, 저, 그, 다른 등 지시관형사, 두, 세 등 수관형사와, 수사는, 하나, 둘, 셋, 첫째, 둘째, 셋째, 제1항, 제2항, 제3항 등이고, 접속사는, 그리고, 그러나, 따라서, 그렇지만, 하지만, 그런데, 또, 또한, 혹은, 예컨데 등이다.

두 번째는, ② 키워드 블랙리스트 지식구축 단계이다. 상대적으로 의미가 떨어지는 단어, 일반적으로 국회 모든 회의에서 흔히 사용하는 단어는 키워드 블랙리스트로 지정하여 키워드 분석 대상에서 제외할 수 있다. 다만, 키워드 블랙리스트를 선정 및 규정하는데 있어서는 보수적인 운용이 필요하다. 예를 들면, ‘장관’이라는 단어는 평소에는 국회 회의에 국무위원으로 여러 장관이 출석하여 질의, 답변하는 과정에서 많이 언급되는 무의미한 단어로 규정될 수 있으나, 최근 ‘조국 법무부 장관’과 관련해서는 ‘장관’이라는 단어가 의미성을 갖기 때문에, 즉 키워드 블랙리스트를 선정하고 규정하는데 있어서는 언제나 명확히 무의미한 단어에만 적용해야 한다.

세 번째 단계는, ③ 복합명사 지식구축 단계이다. 명사와 명사가 띄어쓰기 되어 있어도 두 명사가 하나로 합쳐져 의미있는 하나의 명사로 인식하게 하는 지식 구축 작업을 통해 키워드의 활용도를 높일 수 있다. 예를 들면, ‘개인 정보 보호법’, ‘개인정보 보호법’, ‘개인정보보호법’ 등 어느 것이든 ‘개인정보보호법’으로 인식하게 함. 또한 ‘가축 전염병 예방법’, ‘가축전염병 예방법’, ‘가축전염병예방법’은 모두 ‘가축전염병예방법’으로 인식하게 할 수 있다.

네 번째는, ④ 통계 기반의 키워드 선정 및 추출 후 과거 통계와 비교하는 단계이다. 통계 기반의 키워드 선정 및 추출 방법은 본 발명의 일 실시예에 따른 서비스의 특징이다. 해당 회의록 및 법안 분류 전체에서 해당 키워드가 차지하는 구성비에 비해서 특정 회의록 및 법안 내의 해당 키워드가 차지하는 구성비가 연구자가 설정한 기준 비율에 비해 높은 것을 주요 키워드로 선정 및 추출하여 활용한다. 이렇게 통계 기반의 키워드 선정 및 추출 방법을 활용하면 선정 및 추출된 키워드가 해당 회의 및 법안의 특징을 잘 반영해 주는 장점이 있다. 따라서 해당 회의 및 법안을 대표할 수 있는 키워드 선정 및 추출이 가능하다. 여기서, a/b가 기준비율 이상인 경우, 키워드 선정 및 추출이 가능하고, 이는 이하 수학식 1에 정의로 갈음한다. 예를 들어, a/b가 10이상인 경우 키워드 추출 및 선정, a/b가 10 미만인 경우 분석대상제외를 할 수 있다.

다섯 번째는, ⑤ 키워드 매뉴얼 제외 단계이다. 키워드 선정 및 추출 프로세스를 거쳐 최종 추출된 키워드를 마지막으로 확인하는 단계로, 선정 및 추출된 키워드 중 상대적으로 의미가 떨어진다고 판단되는 키워드에 대하여 추후 모아서 블랙리스트 반영 여부를 결정할 수 있다. 예를 들면, 상대적으로 의미가 떨어진다고 판단되는 ‘어제저녁’, ‘좋다’, ‘안하다’, ‘시키다’, ‘만들다‘ 등의 단어들에 대해서 블랙리스트 반영 여부를 결정할 수 있다.

여섯 번째는, 스몰 샘플(Small Sample) 제어 단계이다. 실제 랭킹을 활용, 예를 들어, 랭크, 키워드, 기준초과비율, 등장횟수, 등장횟수 구성비를 이용하여 스몰 샘플 등에 대하여 키워드 분석 대상에서 제외할 수 있다. 예를 들면, 등장횟수(A)가 5 이하인 경우는 분석 대상에서 제외한다.

이때, 등장횟수(A)는, 특정 회의록 및 법안 내의 해당 키워드 등장횟수이고, 등장횟수(B)는, 특정 회의록 및 법안 전체에서 지정 키워드 등장횟수이고, 등장횟수 구성비(a)는, 특정 회의록 및 법안 내의 해당 키워드가 차지하는 구성비이고, 등장횟수 구성비(b)는, 해당 회의록 및 법안 분류 전체에서 해당 키워드가 차지하는 구성비이다. 이를 이용한 결과를 도시한 것이 도 3c이다.

도 4a를 참조하면, 본 발명의 일 실시예에 따른 페이지에 접속하면, 아이디와 비밀번호를 입력하는 화면이 출력된다. 물론, 서비스의 종류에 따라 회원가입 유무 또는 유료나 무료 여부 등은 달라지게 되므로 도 4a의 페이지는 필수적인 것은 아니다. 도 4a에서 로그인을 하고 입장을 하게 되면, 도 4b와 같이 크게 4 가지의 탭(메뉴)이 도시되고, 국회의사일정에 달력으로 본회의나 위원회 일정을 표시하고, 어느 하나의 날짜가 선택되는 경우, 우측과 같은 리스트가 출력된다. 그리고, 하단에는 도 4i와 같이 현재 날짜를 기준으로 처리안건, 부의안건 및 접수안건의 리스트가 출력된다.

도 4b의 화면에서 우측의 리스트를 선택하게 되면, 도 4c와 같은 화면이 도시되는데, 주요 논의 키워드가 출력되고 이를 선택하는 경우, 도 4d의 화면으로 넘어가게 된다. 주요 논의 키워드, 회의록 중 해당 의안 논의 부분이 추출되어 출력된다. 그리고, 의안정보 탭은 키워드 검색이나 조건 검색이 가능하다. 키워드를 조세로 입력한 경우, 이하와 같은 리스트가 출력되는데(하나의 열만 있는 것이 아니라 복수의 열이 존재하지만 도면 상에 포함되지 않음) 어느 하나를 선택하는 경우, 도 4f와 같은 화면이 출력된다. 현재 진행상태와 찬반율 및 출석률, 개정전후 차이점, 주요 키워드 등이 출력된다. 물론, 회의록도 하단부분에서 확인할 수 있다. 또 도 4f에서 의결결과 "MORE"가 선택되면, 도 4h와 같이 누가 찬성을 하고 반대를 했는지를 정당별로 출력해주게 된다. 그리고, 도 4a에서 접수의안 중 어느 하나를 선택하는 경우, 도 4j와 같은 화면이 출력되고, 누가 이 개정안을 발의했는지를 표시해주게 된다.

이와 같은 도 2 내지 도 4의 빅데이터 기반 회의록 가공 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 빅데이터 기반 회의록 가공 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 도 1의 빅데이터 기반 회의록 가공 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 5를 참조하면, 회의록 가공 서비스 제공 서버는, 국회 정보 제공 서버로부터 적어도 하나의 국회 회의록을 수집하여 저장한다(S5100).

그리고, 회의록 가공 서비스 제공 서버는, 수집된 적어도 하나의 국회 회의록을 의안정보와 회의록정보로 분류하고(S5200), 회의록정보가 포함된 기 설정된 포맷파일로부터 텍스트를 추출하며(S5300), 회의록정보로부터 의안별 발언자 및 발언내용 텍스트를 추출하여 업로드한다(S5400).

마지막으로, 회의록 가공 서비스 제공 서버는, 사용자 단말에서 적어도 하나의 검색어가 입력된 경우, 적어도 하나의 검색어를 포함하는 검색결과를 사용자 단말로 전송한다(S5500).

상술한 단계들(S5100~S5500)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5500)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 5의 빅데이터 기반 회의록 가공 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 빅데이터 기반 회의록 가공 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 빅데이터 기반 회의록 가공 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

국회 회의록을 검색하기 위한 적어도 하나의 검색어를 입력받고, 상기 입력된 적어도 하나의 검색어에 대한 검색결과를 텍스트, 이미지 및 영상을 포함한 콘텐츠로 수신하여 출력하는 사용자 단말; 및
국회 정보 제공 서버로부터 적어도 하나의 국회 회의록을 수집하여 저장하는 데이터베이스화부, 상기 수집된 적어도 하나의 국회 회의록을 의안정보와 회의록정보로 분류하는 분류부, 상기 회의록정보가 포함된 기 설정된 포맷파일로부터 텍스트를 추출하는 추출부, 상기 회의록정보로부터 의안별 발언자 및 발언내용 텍스트를 추출하여 업로드하는 업로드부, 상기 사용자 단말에서 적어도 하나의 검색어가 입력된 경우, 상기 적어도 하나의 검색어를 포함하는 검색결과를 상기 사용자 단말로 전송하는 전송부를 포함하는 회의록 가공 서비스 제공 서버;
를 포함하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 의안정보는, 의안일자, 종류, 상임위, 차수, 의안명, 대표발의의원, 및 공동발의의원을 포함하는 정보인 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 이미지는, 상기 검색결과에 포함된 적어도 하나의 키워드의 출현 횟수, 출현 빈도 및 출현 주기 중 어느 하나 또는 적어도 하나의 조합에 기초하여 상기 적어도 하나의 키워드의 크기 및 위치가 결정되는 워드 클라우드(Word Cloud)이고,
상기 워드 클라우드는, 상기 사용자 단말에서 출력되고 있는 화면 내에 포함된 적어도 하나의 키워드에 대응하여 유동적으로 상기 워드 클라우드 내에 포함된 적어도 하나의 키워드의 크기 및 위치가 변경되는 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 회의록 가공 서비스 제공 서버는,
상기 데이터베이스화부에서 저장한 상기 적어도 하나의 국회 회의록에 포함된 비정형(Unstructed) 데이터, 정형(Structured) 데이터 및 반정형 데이터(Semi-structured)를 정제하고, 메타 데이터로 분류를 포함한 전처리를 실시하고, 상기 전처리가 실시된 데이터를 자연어처리(Natural Language Processing) 알고리즘으로 적어도 하나의 키워드를 추출하여 태그(Tag)를 태깅(Tagging)하고, 데이터 마이닝(Data Mining)을 포함하는 분석을 실시한 후 시각화하여 출력하는 빅데이터화부;
를 더 포함하는 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 회의록 가공 서비스 제공 서버는,
캘런더 이미지에 각 날짜에 발생한 본회의 또는 위원회의 일정을 표시하고, 현재 날짜를 기준으로 발생하고 있는 최근 의사 현황을 본회의 처리안건, 본회의 부의안건 및 접수의안으로 구분하여 리스트업(Listup)된 리스트를 제공하는 의사일정부;
를 더 포함하는 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 회의록 가공 서비스 제공 서버는,
상기 사용자 단말로부터 검색어가 입력되는 경우, 상기 검색어를 키워드로 포함하 의안정보 리스트를 출력하고, 상기 출력된 의안정보 리스트 중 어느 하나의 의안정보가 선택되는 경우, 의안명, 제안대수, 소관위원회, 의안종류, 의안처리구분, 발의제안자, 발의종류, 제안일자, 의결일자 및 의결결과를 포함하는 국회의안정보와, 상기 선택된 의안정보와 기 매핑되어 저장된 기 발의된 관련의안을 포함하는 제안경위와, 접수, 의원회 심사, 본회의심의 및 의결 중 현재상태에 대응하는 심사진행상태와, 참석 대 불참 비율 및 찬성과 반대 비율을 포함하는 본회의 의결결과와, 제안이유 및 주요내용, 법률안 원문 및 신구조문대비표, 해당의안 논의된 제회의 및 주요 발언 키워드를 출력하는 의안정보부;
를 더 포함하는 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.
제 1 항에 있어서,
상기 회의록 가공 서비스 제공 서버는,
국회본회의, 상임위원회, 예산결산특별위원회, 특별위원회, 인사청문회, 소위원회, 국정감사, 국정조사, 공청회, 청문회 및 연석회의의 회의록을 제공하고, 제공되는 회의록의 제목(Title)과 대표발의의원을 하나의 리스트로 생성하며, 상기 제공되는 회의록에 포함된 적어도 하나의 키워드를 태그처리하여 출력하는 회의록 제공부;
를 더 포함하는 것을 특징으로 하는 빅데이터 기반 국회 회의록 가공 서비스 제공 시스템.