KR20230025102A - 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치 - Google Patents

기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치 Download PDF

Info

Publication number
KR20230025102A
KR20230025102A KR1020210107188A KR20210107188A KR20230025102A KR 20230025102 A KR20230025102 A KR 20230025102A KR 1020210107188 A KR1020210107188 A KR 1020210107188A KR 20210107188 A KR20210107188 A KR 20210107188A KR 20230025102 A KR20230025102 A KR 20230025102A
Authority
KR
South Korea
Prior art keywords
precedents
sentences
legal
laws
paragraphs
Prior art date
Application number
KR1020210107188A
Other languages
English (en)
Other versions
KR102559806B1 (ko
Inventor
정선영
Original Assignee
유한회사 글로벌에스씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유한회사 글로벌에스씨 filed Critical 유한회사 글로벌에스씨
Priority to KR1020210107188A priority Critical patent/KR102559806B1/ko
Publication of KR20230025102A publication Critical patent/KR20230025102A/ko
Application granted granted Critical
Publication of KR102559806B1 publication Critical patent/KR102559806B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치가 제시된다. 본 발명에서 제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법은 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계 및 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계 및 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계를 포함한다.

Description

기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치{Method and Apparatus for Smart Law Precedent Search Technology and an Integrated Law Service Technology Based on Machine Learning}
본 발명은 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치에 관한 것이다.
리걸테크란 법률(legal)과 기술(technology)의 결합으로 새롭게 탄생하는 산업서비스를 지칭하는 용어로, 금융과 기술이 결합된 핀테크(fintech)의 법률 버전이라고 할 수 있다. 리걸테크란 본래 법률서비스를 제공하기 위한 기술 및 소프트웨어를 일컫는 용어였으나, 최근 들어 ICT(Information and Communication Technologies) 기술을 기반으로 혁신적인 법률서비스를 제공하는 스타트업과 산업을 아우르는 것으로 그 의미가 확장되고 있다. 국내에서는 다소 생소한 개념이지만 이미 지난 2012년 삼성과 애플의 특허소송에서 블랙스톤 디스커버리社의 지능형 법률검색 기술이 적용된 바 있다.
리걸테크는 쉽게 말해 ICT를 활용해 의뢰인의 변호사 검색, 상담 신청이나, 법조인의 법령 검색, 업무 처리 등을 도와주는 기술 및 서비스를 의미한다. 소송이 필요한 사람은 휴대폰 앱(어플리케이션) 등을 통해 언제 어디서나 전문 변호사를 찾아보거나 상담을 신청할 수 있고, 변호사 등 법조인은 전문 프로그램을 이용해 수백만 건에 달하는 법령, 판례정보를 보다 편리하게 검색하고 활용하게 될 것으로 기대된다.
법률 서비스 분야는 그간 여타 지식서비스 산업에 비해 상대적으로 기술 도입이 지연되어 왔으나, 최근 빅데이터, 인공지능 등 ICT가 발전하면서 법률서비스와 기술의 융합이 가속화되고 새로운 부가가치를 창출하고 있다. 공급측면에서는 법조인의 업무 부담 가중 및 산업 내 경쟁 심화, 수요측면에서는 일반인의 법률 서비스 수요 확대 등이 산업 성장을 견인하고 있다.
최근 지능정보기술의 발달로 기존 서비스의 패러다임이 크게 변화하고 있는데, ICT, 빅데이터, 인공지능 등 지능정보기술 기반의 제4차 산업혁명은 기존 산업과 서비스의 패러다임을 변화시키고 있다. 지능정보기술 기반의 새로운 비즈니스 모델은 전통 서비스 산업의 장벽을 무너뜨리고 있으며 그 시장규모 또한 급성장하고 있다.
이러한 지능정보기술은 전문 교육기관을 거친 사람만이 할 수 있다고 생각했던 법률, 의료 등 전문 서비스 분야에도 적용되기 시작하고 있다. 법률 서비스 분야에 지능정보기술이 접목되는 사례들과 인공지능을 활용 법률 서비스를 제공하는 스타트업들이 활발히 등장하고 있고, 법률 검색, 변호사 찾기, 증거제시, 온라인 통합 법률 서비스 분야를 중심으로 서비스가 퍼지며 시장 규모 증가하고 있다. 이는 법률 분야가 다양한 과거 사례와 해법이 제시되어 있고, 법률엔 규칙이 있기 때문에 인공지능을 적용하기 적합하기 때문이다.
이러한 법률 및 판례 검색은 법률서비스를 제공하기 위한 기본 업무임에도 불구하고 수행하는데 많은 노력과 시간이 소요된다.
종래기술에 따른 법률 서비스들은 데이터의 양적인 차이가 존재할 뿐 1차원적인 정보를 단순하게 제공한다는 점에서 거의 유사하다. 예를 들어, 국내의 법률 정보 서비스의 경우 국가법령정보센터, 대법원 종합법률정보 및 민간 서비스 등이 있다.
종래기술의 키워드 매칭을 이용하는 법률 및 판례 검색방식은 법률 정보에 대한 전문적인 지식을 보유한 변호사들도 실제 활용에 어려움을 느끼고 있다. 예를 들어, 검색 후에 실제 필요한 법률 및 판례를 찾아내기 위해서는 검색결과로 얻어진 법률 및 판례를 일일이 확인하는 과정이 필요하다. 다시 말해, 사용자가 순차적으로 정보를 하나씩 확인하면서 원하는 정보를 찾아가는 방식으로 불편함이 있다.
인공지능 법률 서비스는 이러한 기존 리걸 테크의 접근성, 효율성, 고객경험을 긍정적인 방향으로 고도화할 전망이다. 기계학습의 특성상 더 많은 법령 정보가 누적될수록 더 고도화된 법률 서비스를 제공할 수 있을 것으로 예상된다. 또한, 법조인이 효과적으로 업무를 수행하도록 도와주는 보조역할로 시작하여 향후 부분적으로 변호사를 대체할 것으로 예상된다.
국내 인공지능 법률서비스 원천기술 수준은 글로벌 기준에 비해 상당히 미비하다. 한국에서도 인공지능 활용 법률서비스가 생기고 있으나 리걸테크 기업이 1,100개가 넘는 미국에 비하면 부족한 수준이다. 국내의 리걸테크 실정은 인공지능 기술력뿐만 아니라 법제도, 산학연계, 법제도 데이터 활용 등 미해결된 다양한 문제가 존재한다.
법률산업 관련 법 규제는 리걸테크 스타트업의 서비스 개발 및 수익 창출 등 혁신 활동을 저해하는 요인으로 작용할 수 있다. 현행 변호사법에 따르면 사건을 중개하고 수수료를 받는 온라인 변호사 중개 서비스는 불법으로 규정되어 스타트업의 수익원으로서는 불가능하다. 또한, 판결 정보 제공 분석 서비스 개발에 필수적인 판결 정보는 극히 제한적으로 공개되고 있어 서비스 개발 및 고도화에 제약이 있다. 모든 판결문에 대한 열람이 가능한 미국과 달리 국내에서는 대법원 판례 공보에 실리는 판례에 한해 키워드 검색이 가능하다. 산학 연계의 경우, 국내에서는 리걸테크에 대한 후원은 미미한 편이다. 사건예측 기계학습 AI의 가능성 역시 국내에서는 기계학습 AI에 사용될 정도의 빅데이터를 가진 기관이 공식적으로는 정부기관들 밖에 없으므로 그 개발은 순전히 정부기관의 움직임에 달려 있다고 볼 수 있다. 따라서, 관련 기술 성장에 따른 경쟁력 확보를 위해 기술 성장의 파급효과를 예상하고 선제 대응책 마련이 필요하다.
종래기술에 따른 지능형 법률 및 판례 검색은 키워드 기반의 검색 방식을 이용하고 있고, 이것은 키워드 카운팅을 통한 다수 키워드 검색순위의 단순 나열 방식으로 법률 전문지식을 보유한 인력이 추가적으로 정리하는 과정이 필요하다.
종래기술에 따른 통합형 법률 정보 서비스는 법률, 판례, 관련문헌, 법조인, 기타법률 정보를 연관 키워드를 중심으로 단순 검색하여 나열하는 방식으로, 키워드 카운팅 및 연관 검색에만 의존하여 실제 관련된 내용이 검색되지 않는 경우가 많아, 검색 결과의 단순 나열 및 비시각화로 인하여 결과 요약에 추가적인 인력 및 비용이 필요하다.
한국 등록특허공보 제10-1707941호(2017.02.13)
본 발명이 이루고자 하는 기술적 과제는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받아 기계학습을 적용하여 수많은 법률 및 판례 정보 중 입력된 문장, 문단 또는 문서의 내용과 가장 일치하는 법률 및 판례 정보를 자동으로 검색하고 이를 시각화하여 제공하기 위한 방법 및 장치를 제공하는데 있다. 제안하는 기계학습 기반의 정보 비교 및 요약 기술을 통해 판례 검색, 법령 검색, 문헌 검색, 법조인 검색 및 기타 법률정보 검색 등 빅데이터를 기반으로 한 다양한 연관 정보 검색 기능을 제공하고자 한다. 또한, 빅데이터의 시각화 기술을 적용하여 법률, 시행령, 시행규칙의 연결 조문을 한 화면에서 비교해서 보여주는 기능의 3단 비교보기 기능과 같이 검색 결과를 시각화하여 보여주는 기능을 제공하고자 한다.
일 측면에 있어서, 본 발명에서 제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법은 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계 및 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계를 포함한다.
상기 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계는 문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용하고, 상기 RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습하고, 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용하며, 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시킨다.
상기 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계는 문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산하고, 계산된 코사인 유사도 중 가장 유사한 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과를 제시하며, 상기 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋을 이용하여 성능 평가를 수행한다.
본 발명에서 제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법은 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계를 더 포함하고, 상기 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계는 빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트하고, 상기 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화 하여 제공한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 장치는 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 임베딩 계산부, 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 유사도 계산부 및 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 통합정보 시각화부를 포함한다.
상기 임베딩 계산부는 문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용하고, 상기 RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습하고, 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용하며, 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시킨다.
상기 유사도 계산부는 문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산하고, 계산된 코사인 유사도 중 가장 유사한 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과를 제시하며, 상기 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋을 이용하여 성능 평가를 수행한다.
상기 통합정보 시각화부는 빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트하고, 상기 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화 하여 제공한다.
본 발명의 실시예들에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받아 기계학습을 적용하여 수많은 법률 및 판례 정보 중 입력된 문장, 문단 또는 문서의 내용과 가장 일치하는 법률 및 판례 정보를 자동으로 검색하고 이를 시각화하여 제공할 수 있다.
제안하는 인공지능 활용 법률 서비스로 인해 공공서비스 중 법률 관련 민원 프로세스를 개선하여 서비스 효율을 향상시킬 수 있다. 특히, 법률 민원 신청 후 대기하는 시간이 획기적으로 단축되고 민원 업무 담당자의 업무량도 개선될 수 있다. 또한, 전문 변호사 없이도 판결 데이터를 참고하여 기존보다 전문적인 법률 민원 서비스 제공이 가능할 것이다.
또한, 법률 서비스 업무의 효율화 및 자동화로 법률 검색 등 비교적 단순한 업무를 감소시켜 법조인의 시간과 노력을 줄여줄 수 있고, 고부가가치 활동에 집중할 수 있게 되어 법률 서비스의 질 제고가 예상된다. 다시 말해, 법조인이 의뢰인을 위한 변론 작성이나 사건 재구성 등 창조적 업무에 더욱 집중할 수 있다.
또한, 정보 비대칭성 해소와 법률 서비스에 고객 접근성 및 선택권을 제고할 수 있다. 법률 서비스의 가격 비교, 전문 변호사에 대한 정보 제공 등 법률 산업 내 정보 비대칭성이 개선될 수 있다.
도 1은 본 발명의 일 실시예에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 장치의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 임베딩 계산 및 유사도 계산 과정을 나타내는 개략도이다.
도 4는 본 발명의 일 실시예에 따른 유사도 계산 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 임베딩 계산 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 또 다른 실시예에 따른 임베딩 계산 과정을 설명하기 위한 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법을 설명하기 위한 흐름도이다.
제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법은 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계(110), 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계(120) 및 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계(130)를 포함한다.
단계(110)에서, 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환한다.
본 발명에서는 법령 및 판례 검색을 위해 키워드가 아닌 문장, 문단 또는 문서를 입력 받아 문장, 문단 또는 문서를 벡터로 변환한다.
본 발명의 실시예에 따르면, Sent2Vec, Paragraph2Vec 및 Doc2Vec 등을 통해 문장, 문단 또는 문서 단위의 임베딩을 구현할 수 있고, 시계열 데이터 분석에 최적화된 딥러닝 계열 알고리즘을 이용할 수 있다.
본 발명의 실시예에 따르면, 문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용할 수 있다. RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습한다.
본 발명의 실시예에서는 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용한다.
본 발명의 또 다른 실시예에서는 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시킨다.
단계(120)에서, 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별한다.
입력된 문장, 문단 또는 문서를 벡터로 변환한 후, 해당 벡터와 가장 유사한 법령 및 판례를 찾기 위한 자동 검색을 수행하도록 한다. 이후, 검색된 법령 및 판례에 대한 역변환 및 결과 도출을 위한 과정을 수행한다.
본 발명의 실시예에 따르면, 문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산한다. 이후, 계산된 코사인 유사도 중 가장 유사한 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과를 제시한다.
본 발명의 실시예에 따른 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋을 이용하여 성능 평가를 수행한다.
단계(130)에서, 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공한다.
본 발명의 실시예에 따르면, 빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트한다.
본 발명의 실시예에 따른 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화하여 제공한다.
도 2는 본 발명의 일 실시예에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 장치의 구성을 나타내는 도면이다.
제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 장치는 임베딩 계산부(210), 유사도 계산부(220) 및 통합정보 시각화부(260)를 포함한다.
임베딩 계산부(210)는 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환한다.
본 발명에서는 법령 및 판례 검색을 위해 키워드가 아닌 문장, 문단 또는 문서를 입력 받아 문장, 문단 또는 문서를 벡터로 변환한다.
본 발명의 실시예에 따르면, Sent2Vec, Paragraph2Vec 및 Doc2Vec 등을 통해 문장, 문단 또는 문서 단위의 임베딩을 구현할 수 있고, 시계열 데이터 분석에 최적화된 딥러닝 계열 알고리즘을 이용할 수 있다.
본 발명의 실시예에 따르면, 문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용할 수 있다. RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습한다.
본 발명의 실시예에서는 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용한다.
본 발명의 또 다른 실시예에서는 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시킨다.
유사도 계산부(220)는 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별한다.
입력된 문장, 문단 또는 문서를 벡터로 변환한 후, 해당 벡터와 가장 유사한 법령 및 판례를 찾기 위한 자동 검색을 수행하도록 한다. 이후, 검색된 법령 및 판례에 대한 역변환 및 결과 도출을 위한 과정을 수행한다.
본 발명의 실시예에 따르면, 문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델(221)을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 포함하는 데이터셋(231)을 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산한다. 본 발명의 실시예에서는 비지도 학습 모델(221) 중 PV-DM 모델을 사용하였다.
예를 들어, 말뭉치 데이터는 한국어 법률 말뭉치, 행정규칙, 자치규칙 말뭉치, 엑소 브레인 말뭉치 및 세종 말뭉치를 포함할 수 있다.
예를 들어, 학습 데이터는 헌법, 법률, 명령, 행정규칙, 자치법규, 판례에 대한 국가법률정보 데이터와 대한법률신문, 법률신문 등의 전문 뉴스기사 데이터를 비롯해서 미리 정해진 과거의 시점으로부터 현재까지의 모든 언론사의 뉴스를 형태소 분석한 결과를 저장하여 사용할 수 있다.
또한, 본 발명의 실시예에 따른 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋(232)을 이용하여 성능 평가를 수행한다.
본 발명의 실시예에 따른 데이터셋(231)은 학습을 위해 사용할 수 있는 데이터셋들이며, 예를 들어 포털 사이트의 영화 리뷰 코퍼스를 사용할 수 있다. 테스트로는 실제 포털 사이트의 최신 영화 리뷰들을 사용하여 진행하였다.
전처리 단계(240)에서는 이러한 데이터셋 및 테스트셋에 대한 맞춤법 검사와 정규식을 통해 불필요한 요소들을 필터링한다. 예를 들어, 특정 단어 삭제 또는 외국어 삭제 등의 필터링을 수행할 수 있다. 이와 같은 과정을 거친 전처리 데이터(241)를 임베딩 계산부(210)에서 유사도 계산을 위한 벡터로 변환한다.
앞서 설명된 바와 같이, 임베딩 계산부(210)는 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 형태소 분석기(211)를 이용하여 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환한다. 본 발명의 실시예에서는 각종 형태소 분석기들 중 가장 처리 속도가 빠른 Mecab을 사용하였다.
유사도 계산부(220)는 이와 같이 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별한다. 이후, 계산된 코사인 유사도 중 최고 유사도를 갖는 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과(250)를 제시한다. 결과(250)로는 단어(Word) 문서제목, 문서id(DecumentID), 코사인 유사도(Similarity)의 결과가 반환될 수 있다.
통합정보 시각화부(260)는 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공한다.
본 발명의 실시예에 따르면, 빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트한다.
본 발명의 실시예에 따른 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화하여 제공한다.
본 발명의 실시예에 따른 법령 및 판례 검색을 원하는 사용자를 위한 개인화 서비스를 위해서는 사용자의 프로파일을 수집하여 사용자 모델을 구축해야 한다. 이러한 개인화 서비스는 사용자에게 원하는 정보에 쉽게 접근할 수 있도록 서비스를 제공한다는 장점이 있다. 이처럼 개인화 서비스는 사용자의 선호도와 같은 다양한 프로파일 정보를 수집하여 사용자에게 알맞은 정보를 제공하기 위한 것이다. 예를 들어, 이러한 개인화 서비스의 대표적인 형태가 개인화 추천 시스템이며, 학습과 정보의 필터링으로 구성되고, 학습은 사용자 선호도에 따라 학습 결과를 사용자 프로파일로 저장하며, 정보 필터링을 통해 사용자에 적합한 추천정보를 나타낼 수 있다.
본 발명의 실시예에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스는 판례 검색, 법령 검색, 문헌 검색, 법조인 검색 및 기타 법률정보 검색 등을 빅데이터를 기반으로 하여 다양한 연관 정보를 시각화하여 나타낼 수 있다.
본 발명의 실시예에 따르면, 검색된 정보에 대한 5가지 이상의 연관 정보를 시각화하여 제공할 수 있다. 예를 들어, 막대 그래프, 누적 막대 그래프를 포함하는 시간 시각화, 파이 차트, 트리맵을 포함하는 분포 시각화, ·버블차트, 히스토그램을 포함하는 관계 시각화, 히트맵, 스타 차트, 평행 좌표계를 포함하는 비교 시각화 및 지도 맵핑을 포함하는 공간 시각화 등이 있다.
대화형, 비정형 탐색 및 분석을 위해 최근에는 연관 분석 기법이 활용되고 있다. 다수의 데이터 소스를 완전히 결합하고 인덱싱하여 가능한 연관을 조사하며, 어떤 데이터도 제외되지 않는다.
본 발명의 실시예에 따른 연관 분석 엔진은 강력하고 신속한 계산 및 집계를 통해 분석을 즉시 업데이트하고, 각각을 클릭 후 관련된 값과 관련되지 않은 값을 모두 노출시키며, 데이터 내의 연관성을 모두 강조해서 보여준다. 따라서, 전문가에게 문의하고 기다릴 필요 없이, 시각화를 바탕으로 자유롭고 제한 없는 검색, 탐색, 피벗이 가능할 수 있다.
연관 데이터 모델링 기술을 강력하게 만들어주는 주요 특성은 다음 세 가지와 같다. 첫 번째는 다양한 소스에서 데이터를 가져오는 능력이다. 사용되지 않는 데이터가 없고, 잘못 처리되는 데이터도 없다는 이점이 있다. 두 번째, 사용자는 단순한 검색 및 선택을 통해 경계 없이 탐색하고, 모든 질문과 후속 질문을 할 수 있다. 마지막으로 사용자는 전문가에게 문의하고 새로운 질문을 기다릴 필요 없이 생각의 속도로 작업할 수 있다. 이러한 주요 속성을 결합해 모든 기술 수준의 사용자에게 법령 및 판례 검색 서비스를 제공할 수 있다.
도 3은 본 발명의 일 실시예에 따른 임베딩 계산 및 유사도 계산 과정을 나타내는 개략도이다.
본 발명의 실시예에 따른 한국어 구문 분석은 문장을 이루고 있는 구성 성분으로 분해하고 그들 사이의 위계 관계를 분석하여 문장의 구조를 결정하는 것을 의미한다. 다시 말해, 일련의 문자열을 의미 있는 토큰(다시 말해, 형태소)로 분해하고, 이를 형태소 분석하여 이들로 이루어진 구 묶음을 만드는 과정이다. 이렇게 작성된 구 묶음을 통해 입력된 문장, 문다 또는 문서에 대한 구조를 해석하고 그 구조를 명백히 하는 것이다.
종래기술에서는 형태소 분석된 결과와 nltk.chunk.regexp.RegexpParser 를 이용하여 간단하게 한국어 문장에서 명사구, 동사구, 형용사구를 찾는 알고리즘을 파이썬 코드로 실험하였다.
본 발명의 실시예에 따른 임베딩 계산부는 법령 및 판례 검색을 위한 문장, 문단 또는 문서(310)를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환한다.
본 발명에서는 법령 및 판례 검색을 위해 키워드가 아닌 문장, 문단 또는 문서를 입력 받아 문장, 문단 또는 문서를 벡터로 변환한다.
본 발명의 실시예에서는 3가지 구문 문법(chunk grammar)을 정의하여 실험한다. 먼저, 명사가 연속적으로 등장한 후 접미사(suffix)가 선택적으로 붙은 경우를 명사구(NP)로 정의하였다. 마찬가지 방식으로 동사구(VP)와 형용사구(AP)를 정의하여 실험하였다. 형태소 분석과 구문 분석을 통해 저장된 문장을 다른 문장과 비교하여 유사도를 측정하는 방식으로는 순환신경망(Recurrent Neural Network; RNN) 방식의 알고리즘을 적용하여 문장 유사도를 측정하였다.
본 발명의 실시예에 따르면, Paragraph2Vec 엔진, 학습된 Doc2Vec(321) 및 학습된 Sent2Vec 엔진(322) 등을 통해 문장, 문단 또는 문서 단위의 임베딩을 구현할 수 있다. 또한, 문서 별 유사문장 검색 엔진(332)을 통해 문장 유사도를 측정할 수 있다.
본 발명의 실시예에 따른 문장, 문단 또는 문서의 언어모델 학습에 사용될 기계학습 알고리즘에 있어서, 문장은 단어의 순차적인 나열이기 때문에, 문장의 앞에서부터 입력된 문맥 정보를 고려하면서 학습을 해야 한다. 따라서 신경망의 은닉층에서 현재 입력 데이터와 이전까지 학습된 문맥 단위(context unit)까지 모두 입력으로 받아 처리를 할 수 있는 모델을 사용한다. 본 발명에서는 한국어의 특성을 고려하여 몇 가지 기법을 추가로 적용한다.
본 발명의 실시예에서는 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용한다.
더욱 상세하게는, 우리 말은 술어부 보다 주어부에서 중요한 단어가 등장한다는 가정하에 일정 길이 이상의 단어를 지닌 문장에서 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정하고 주어부 단어 벡터에
Figure pat00001
배율로 가중치를 적용한다. 여기서 
Figure pat00002
는 실험을 통해 가장 적절한 수치를 도출할 수 있다.
본 발명의 또 다른 실시예에서는 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시킨다.
더욱 상세하게는, 주어부에 가중치를 부여했다면 코퍼스 출현 빈도에 따라 빈도가 높은 단어에 대해서는 가중치를 감소시킨다. 이는 불용어 제거와 유사한 효과를 갖는 것으로 알려져 있다. 본 발명의 실시예에 따른 가중치 계산은 하기 식과 같이 나타낼 수 있다:
Figure pat00003
여기서 k는코퍼스 내 단어의 출현 빈도 순위이며, 가장 빈도가 높은 단어는 1이 된다. t는 임계값으로 여기서는 1000을 설정하여 각 단어 벡터에 대한 wt 배율로 가중치를 적용하였다.
본 발명의 실시예에 따른 유사도 계산부는 이와 같이 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별한다. 이후, 계산된 코사인 유사도 중 최고 유사도를 갖는 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과(331)를 제시한다.
본 발명의 실시예에 따른 통합정보 시각화부(340)는 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공한다.
도 4는 본 발명의 일 실시예에 따른 유사도 계산 과정을 설명하기 위한 도면이다.
본 발명의 실시예에 따른 법령 및 판례 검색을 위하여 입력된 문장, 문단 또는 문서를 형태소 분석(430) 과정을 통해 유사도 계산을 위한 벡터로 변환하고, 유사도 계산부(410)는 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 모델(430)을 이용하여 유사도를 판별한다.
본 발명의 실시예에 따르면, 문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델(430)을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 포함하는 데이터셋을 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산한다. 본 발명의 실시예에서는 비지도 학습 모델(430) 중 PV-DM 모델을 사용하였다.
앞서 설명된 바와 같이, 형태소 분석(430)은 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 형태소 분석기를 이용하여 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환한다. 형태소 분석(430)은 학습에 사용 가능한 형태로 변환하는 단계이며, 본 발명의 실시예에 다른 PoS로는 Mecab을 사용하였다. 이를 통해 코멘트(comment)들을 토큰화(tokenizing)하여 문서ID(document id)와 매칭하고, 학습 데이터로 사용할 수 있다.
유사도 계산부(410)는 이와 같이 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별한다. 이후, 계산된 코사인 유사도 중 최고 유사도를 갖는 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과(440)를 제시한다. 결과(440)로는 단어(Word) 문서제목, 문서id(DecumentID), 코사인 유사도(Similarity)의 결과가 반환될 수 있다.
본 발명의 실시예에 따른 코사인 유사도를 계산하기 위해 입력된 문장, 문단 또는 문서에 대한 임베딩 계산 후 비교 대상이 되는 모든 문장, 문단 또는 문서의 임베딩 벡터에 대해 코사인 유사도를 계산하여 가장 유사한 벡터에 해당하는 문장을 정답으로 간주하고 거리순으로 결과를 제시한다. 본 발명의 실시예에 따른 코사인 유사도 계산식은 하기식으로 나타낼 수 있다:
Figure pat00004
여기서 Ai와 Bi는 각각 벡터 A와 B의 구성요소이다.
본 발명의 실시예에 따른 기계학습 기반 비지도 학습 모델에 대한 성능을 정량적 평가로 진행할 수 있도록 1,000여개의 문장, 문단 또는 문서로 구성된 테스트셋을 구축할 수 있다. 테스트셋에는 직접 선택한 정답 정답 문장을 포함시키며, 예를 들어 각각 1위, 3위, 5위 내에 존재하는지 여부로 Precision at k(P@k)를 정하고 이 점수로 모델의 성능을 평가할 수 있다.
도 5는 본 발명의 일 실시예에 따른 임베딩 계산 과정을 설명하기 위한 도면이다.
본 발명의 실시예에 따른 Doc2Vec 기법은 PV-DM 및 PV-DBOW를 포함할 수 있다.
먼저, PV-DM(Distributed Memory model of Paragraph Vector)은 다음 단어를 예측하며 로그 확률 평균을 최대화하는 과정(Average/Concatenate)(520)에서 paragraph id에 대한 학습(paragraph representation)과정(Paragraph Matrix)(530)을 추가하여 paragraph embedding(510)을 수행한다.
도 5에서 paragraph id를 나타내는 임베딩 벡터(embedding vector)는 해당 paragraph(document, doc)가 학습될 때 지속적으로 학습된다. 따라서 위의 모델을 PV-DM(Distributed Memory model of Paragraph Vector)라고 지칭한다.
PV-DM 모델은 문서가 학습될 때, 단어 사이의 연관성뿐만이 아니라 문단 벡터(Paragraph vector)가 지속적으로 학습이 되는 데, 이를 paragraph-wise 대신 document-wise로 진행하면 문서 임베딩(document embedding)이 된다.
학습 이후 예측 단계에서는 가중치 파라미터(weight parameter)를 고정(freeze)한 뒤 동일한 프로세스를 진행하며 이에 가장 적합한 파라미터 벡터를 추론할 수 있다.
같은 문단에서 생성된 훈련 데이터에서는 하나의 문단 벡터로 공유되기 때문에 문단 벡터는 학습 시 문서의 주제를 잡아주는 메모리(memory) 같은 역할을 할 수 있다. 따라서, 이러한 알고리즘의 이름을 분산화된 메모리를 가진 문단 벡터(paragraph vector with distributed memory)라고 지칭한다.
도 6은 본 발명의 또 다른 실시예에 따른 임베딩 계산 과정을 설명하기 위한 도면이다.
본 발명의 또 다른 실시예에 따른 Pv-DM은 단어 벡터(word vector)도 생성하므로, 단어 벡터가 필요한 경우에는 PV-DM이 유리하다. 단, PV-DBOW( Distributed Bag of Words model of Paragraph VectorPv-DM)는 단어 벡터를 생성하지 않으므로 저장공간 관리가 더 용이하다. 일반적인 경우에는 PV-DBOW와 PV-DM을 동시에 실행해서 두 개의 결과를 연속(concatenation)하는 것이 가산(sum)하는 것보다 유리하다.
PV-DBOW 방식은 도 6에 도시된 바와 같이, 문맥(context) 단어들을 사용하지 않고 paragraph id(620)만 가지고 해당 문단에서 나오는 단어를 랜덤하게 예측하는 방식을 사용한다. 입력은 문단 벡터이고 출력은 문단에서 랜덤하게 뽑힌 단어들(610)이다.
본 발명에서 제안하는 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스를 제공하기 위한 빅데이터의 시각화는 빅데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하여 제공한다.
예를 들어, 텐서플로(Tensorflow)는 딥러닝의 이해와 디버깅 및 최적화를 돕기 위한 시각화 도구인 Tensorboard(https://www.tensorflow.org/get_started/graph_viz)를 제공한다.
딥러닝 등장 이후 기계학습의 데이터 차원이 수백 개 이상으로 폭증하게 되면서, 고차원 데이터를 차원축소하여 시각화하는 기술인 t-SNE(https://lvdmaaten.github.io/tsne)가 주목 받고 있다.
또한 딥러닝은 인간의 신경망을 모방해 만들어진 알고리즘으로서, 딥러닝의 고차원 데이터 처리 과정을 3차원 시뮬레이션으로 시각화함으로써 딥러닝과 인간 두뇌의 작동 원리를 이해하는 데 기여할 수 있다.
앞서 설명된 바와 같이, 본 발명의 실시예들에 따른 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받아 기계학습을 적용하여 수많은 법률 및 판례 정보 중 입력된 문장, 문단 또는 문서의 내용과 가장 일치하는 법률 및 판례 정보를 자동으로 검색하고 이를 시각화하여 제공할 수 있다.
제안하는 인공지능 활용 법률 서비스로 인해 공공서비스 중 법률 관련 민원 프로세스를 개선하여 서비스 효율을 향상시킬 수 있다. 특히, 법률 민원 신청 후 대기하는 시간이 획기적으로 단축되고 민원 업무 담당자의 업무량도 개선될 수 있다. 또한, 전문 변호사 없이도 판결 데이터를 참고하여 기존보다 전문적인 법률 민원 서비스 제공이 가능할 것이다.
또한, 법률 서비스 업무의 효율화 및 자동화로 법률 검색 등 비교적 단순한 업무를 감소시켜 법조인의 시간과 노력을 줄여줄 수 있고, 고부가가치 활동에 집중할 수 있게 되어 법률 서비스의 질 제고가 예상된다. 다시 말해, 법조인이 의뢰인을 위한 변론 작성이나 사건 재구성 등 창조적 업무에 더욱 집중할 수 있다.
또한, 정보 비대칭성 해소와 법률 서비스에 고객 접근성 및 선택권을 제고할 수 있다. 법률 서비스의 가격 비교, 전문 변호사에 대한 정보 제공 등 법률 산업 내 정보 비대칭성이 개선될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (5)

  1. 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계; 및
    유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계
    를 포함하는 지능형 법률 판례 검색 및 통합형 법률 서비스 방법.
  2. 제1항에 있어서,
    상기 임베딩 계산부를 통해 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 단계는,
    문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용하고, 상기 RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습하고,
    미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용하며,
    코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시키는
    지능형 법률 판례 검색 및 통합형 법률 서비스 방법.
  3. 제1항에 있어서,
    상기 유사도 계산부를 통해 상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 단계는,
    문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산하고, 계산된 코사인 유사도 중 가장 유사한 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과를 제시하며,
    상기 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋을 이용하여 성능 평가를 수행하는
    지능형 법률 판례 검색 및 통합형 법률 서비스 방법.
  4. 제1항에 있어서,
    통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계
    를 더 포함하고,
    상기 통합정보 시각화부를 통해 상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 단계는,
    빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트하고,
    상기 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화 하여 제공하는
    지능형 법률 판례 검색 및 통합형 법률 서비스 방법.
  5. 법령 및 판례 검색을 위한 문장, 문단 또는 문서를 입력 받고, 입력 받은 문장, 문단 또는 문서를 구성하고 있는 형태소를 분해하여 유사도 계산을 위한 벡터로 변환하는 임베딩 계산부;
    상기 변환된 벡터를 입력 받아 미리 학습된 학습 데이터 간의 유사도를 기계학습 기반 비지도 학습 방식을 이용하여 판별하는 유사도 계산부; 및
    상기 법령 및 판례 검색을 원하는 사용자의 의도를 프로파일 설계 및 분석하여 상기 판별 결과에 따른 법령 및 판례의 연관 정보를 시각화하여 제공하는 통합정보 시각화부
    를 포함하고,
    상기 임베딩 계산부는,
    문장, 문단 또는 문서를 구성하고 있는 형태소에 대하여 문맥 정보에 따른 학습을 수행하기 위해 LSTM(Long Short Term Memory) 및 GRU(Gate Recurrent Unit)를 포함하는 RNN 모델을 이용하고, 상기 RNN의 신경망의 은닉층에서 상기 입력된 문장, 문단 또는 문서와 미리 학습된 문맥(context) 정보를 모두 입력으로 하여 시계열 데이터를 학습하고, 미리 정해진 길이 이상의 단어를 포함하는 문장에 대하여 절반 지점을 기준으로 상위를 주어부, 하위를 술어부로 정의하고 주어부에 포함되는 단어에 대해 가중치를 적용하며, 코퍼스 출현 빈도에 따라 미리 정해진 코퍼스 출현 빈도 이상의 단어에 대해 가중치를 감소시키고,
    상기 유사도 계산부는,
    문장에 대한 별도의 레이블링을 진행하지 않는 기계학습 기반 비지도 학습 모델을 통해 한국어 법률 말뭉치, 행정규칙, 자치법규 말뭉치를 포함하는 말뭉치 데이터, 헌법, 법률, 조약, 명령, 행정규칙자치법규 및 판례의 문장 및 문단에 대하여 미리 학습된 학습 데이터를 이용하여 상기 변환된 벡터와 미리 학습된 학습 데이터 간의 코사인 유사도를 계산하고, 계산된 코사인 유사도 중 가장 유사한 벡터에 해당하는 문장을 정답 문장으로 하여 거리순으로 결과를 제시하며, 상기 기계학습 기반 비지도 학습 모델에 대한 성능 평가를 수행하기 위해 상기 정답 문장을 포함하는 테스트셋을 이용하여 성능 평가를 수행하고,
    상기 통합정보 시각화부는,
    빅데이터에 기초하여 시간, 분포, 관계, 비교 및 공간을 포함하는 복수의 연관 정보를 시각화하여 제공하기 위해 연관 정보 분석 엔진을 이용하여 판별 결과에 따른 법령 및 판례의 연관 정보에 대한 계산 및 집계를 통해 결과를 실시간으로 업데이트하고, 상기 사용자의 의도를 프로파일 설계 및 분석한 결과에 따라 상기 업데이트된 상기 연관 정보를 모두 시각화 하여 제공하는
    지능형 법률 판례 검색 및 통합형 법률 서비스 장치.
KR1020210107188A 2021-08-13 2021-08-13 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치 KR102559806B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210107188A KR102559806B1 (ko) 2021-08-13 2021-08-13 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210107188A KR102559806B1 (ko) 2021-08-13 2021-08-13 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230025102A true KR20230025102A (ko) 2023-02-21
KR102559806B1 KR102559806B1 (ko) 2023-07-27

Family

ID=85327869

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210107188A KR102559806B1 (ko) 2021-08-13 2021-08-13 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102559806B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118152542A (zh) * 2024-05-09 2024-06-07 广东知得失网络科技有限公司 一种针对知识产权相关话题的聊天方法、系统及聊天机器人

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101692701B1 (ko) * 2015-10-28 2017-01-05 서울과학기술대학교 산학협력단 특허의 내용·ipc·소셜태깅정보를 기반으로 한 3중스마트분석을 통한 하이브리드형 특허추천장치 및 방법
KR101707941B1 (ko) 2015-12-09 2017-02-27 펄슨정보기술 주식회사 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법, 판례검색장치 및 이를 위한 컴퓨터 판독가능 기록매체
KR102203355B1 (ko) * 2020-01-21 2021-01-18 김종호 상품 체험에 따른 체험정보 추출 시스템 및 방법
KR102216066B1 (ko) * 2020-05-04 2021-02-18 호서대학교 산학협력단 문장형 쿼리에 대해 검색결과를 제공하는 방법
KR20210056131A (ko) * 2019-11-08 2021-05-18 한국전자통신연구원 법령 분야 질의 응답 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101692701B1 (ko) * 2015-10-28 2017-01-05 서울과학기술대학교 산학협력단 특허의 내용·ipc·소셜태깅정보를 기반으로 한 3중스마트분석을 통한 하이브리드형 특허추천장치 및 방법
KR101707941B1 (ko) 2015-12-09 2017-02-27 펄슨정보기술 주식회사 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법, 판례검색장치 및 이를 위한 컴퓨터 판독가능 기록매체
KR20210056131A (ko) * 2019-11-08 2021-05-18 한국전자통신연구원 법령 분야 질의 응답 방법 및 장치
KR102203355B1 (ko) * 2020-01-21 2021-01-18 김종호 상품 체험에 따른 체험정보 추출 시스템 및 방법
KR102216066B1 (ko) * 2020-05-04 2021-02-18 호서대학교 산학협력단 문장형 쿼리에 대해 검색결과를 제공하는 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118152542A (zh) * 2024-05-09 2024-06-07 广东知得失网络科技有限公司 一种针对知识产权相关话题的聊天方法、系统及聊天机器人

Also Published As

Publication number Publication date
KR102559806B1 (ko) 2023-07-27

Similar Documents

Publication Publication Date Title
US10310812B2 (en) Matrix ordering for cache efficiency in performing large sparse matrix operations
US11132370B2 (en) Generating answer variants based on tables of a corpus
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US10373057B2 (en) Concept analysis operations utilizing accelerators
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
US20160259826A1 (en) Parallelized Hybrid Sparse Matrix Representations for Performing Personalized Content Ranking
US9928235B2 (en) Type-specific rule-based generation of semantic variants of natural language expression
US9535980B2 (en) NLP duration and duration range comparison methodology using similarity weighting
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US10956824B2 (en) Performance of time intensive question processing in a cognitive system
US11188819B2 (en) Entity model establishment
US10713429B2 (en) Joining web data with spreadsheet data using examples
US11500865B1 (en) Multiple stage filtering for natural language query processing pipelines
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US10282678B2 (en) Automated similarity comparison of model answers versus question answering system output
US12007988B2 (en) Interactive assistance for executing natural language queries to data sets
Xue et al. Automatic generation and recommendation for API mashups
Paulheim Machine learning with and for semantic web knowledge graphs
Cao et al. Improving and evaluating complex question answering over knowledge bases by constructing strongly supervised data
KR102559806B1 (ko) 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치
Wang et al. A multiple pattern complex event detection scheme based on decomposition and merge sharing for massive event streams
Kaur et al. Techniques of Ontology and its Usage in Indian Languages-A Review
Halioui et al. Bioinformatic workflow extraction from texts: combining machine learning and ontologies
El Haddadi et al. Data Lake Management System based on Topic Modeling

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)