KR20210127120A - 의료 데이터 검증 방법, 장치 및 전자 기기 - Google Patents

의료 데이터 검증 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR20210127120A
KR20210127120A KR1020210128335A KR20210128335A KR20210127120A KR 20210127120 A KR20210127120 A KR 20210127120A KR 1020210128335 A KR1020210128335 A KR 1020210128335A KR 20210128335 A KR20210128335 A KR 20210128335A KR 20210127120 A KR20210127120 A KR 20210127120A
Authority
KR
South Korea
Prior art keywords
medical data
feature vector
fusion
candidate document
vectors
Prior art date
Application number
KR1020210128335A
Other languages
English (en)
Other versions
KR102636493B1 (ko
Inventor
저우 팡
야빙 스
예 지앙
춘광 차이
Original Assignee
바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디. filed Critical 바이두 인터내셔널 테크놀로지 (센젠) 코., 엘티디.
Publication of KR20210127120A publication Critical patent/KR20210127120A/ko
Application granted granted Critical
Publication of KR102636493B1 publication Critical patent/KR102636493B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원은 의료 데이터 검증 방법, 장치 및 전자 기기를 개시하며, AI 의료, 딥 러닝, 지식 그래프, 자연 언어 처리 등 인공 지능 지능 기술 분야에 관한 것이다. 구체적인 구현 수단은, 검증할 의료 데이터 및 후보 문서를 획득하고; 자연 언어 처리 모델을 사용하여 의료 데이터 및 후보 문서를 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하며; 각 특징 벡터를 기반으로, N가지 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하되, N은 1보다 큰 양의 정수이고; N개의 연관 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 것이다. 이로써, 이러한 의료 데이터 검증 방법을 통해, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 향상시킨다.

Description

의료 데이터 검증 방법, 장치 및 전자 기기{MEDICAL DATA VERIFICATION METHOD, APPARATUS AND ELECTRONIC DEVICE}
본 출원은 컴퓨터 기술 분야에 관한 것으로, 특히 AI 의료, 딥 러닝, 지식 그래프, 자연 언어 처리 등 인공 지능 지능 기술 분야에 관한 것이며, 의료 데이터 검증 방법, 장치 및 전자 기기를 제공한다.
의료 데이터 검증 기술은 의료 그래프를 구축하는데 도움을 줄 수 있다. 예를 들어, 의료 그래프를 구축하는 과정에서, 획득한 의료 데이터에 대해 검증하여 상기 의료 데이터의 신뢰 정도를 판정하고, 지원하는 증거를 제공하며, 따라서 신뢰 정도가 비교적 높은 의료 데이터 및 상응한 지원 증거를 연관시켜, 의료 그래프 데이터로서 의료 그래프에 저장함으로써, 의료 그래프의 내용을 풍부하게 하면서 확장하여, 의료 그래프 데이터의 정확성을 향상시킨다.
관련 기술에서, 인공 지능, 딥 러닝, 자연 언어 처리 등 기술의 발전에 따라, 딥 러닝 모델을 통해 의료 데이터의 검증을 구현할 수 있다. 예를 들어 복수의 직렬된 딥 러닝 모델 구조를 설계하고 대규모 레이블 데이터를 통해 복수의 직렬된 딥 러닝 모델을 트레이닝한 다음, 트레이닝이 완료된 복수의 직렬된 딥 러닝 모델을 사용하여 의료 데이터의 기초 특징에 따라 의료 데이터의 신뢰도에 대해 검증한다.
그러나, 복수의 직렬된 딥 러닝 모델은 오차 누적을 초래하고, 데이터의 정확성에 대한 의료 산업의 요구는 매우 엄격하기 때문에, 복수의 딥 러닝 모델을 직렬로 연결하여 의료 데이터에 대해 검증하는 방법의 정확도는 비교적 떨어진다.
본 출원은 의료 데이터를 검증하기 위한 방법, 장치, 전자 기기 및 저장 매체를 제공한다.
본 출원의 일 양태에 따르면, 의료 데이터 검증 방법이 제공되는 바, 검증할 의료 데이터 및 후보 문서를 획득하는 단계; 자연 언어 처리 모델을 사용하여 상기 의료 데이터 및 후보 문서를 처리하여, 상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 단계; 상기 각 특징 벡터를 기반으로, N가지 방식을 사용하여 상기 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 단계 - N은 1보다 큰 양의 정수임 - ; 및, 상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계를 포함한다.
본 출원의 다른 양태에 따르면, 의료 데이터 검증 장치가 제공되는 바, 검증할 의료 데이터 및 후보 문서를 획득하는 제1 획득 모듈; 자연 언어 처리 모델을 사용하여 상기 의료 데이터 및 후보 문서를 처리하여, 상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 제2 획득 모듈; 상기 각 특징 벡터를 기반으로, N가지 방식을 사용하여 상기 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 제3 획득 모듈 - N은 1보다 큰 양의 정수임 - ; 및, 상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 결정 모듈;을 포함한다.
본 출원의 또 다른 양태에 따르면, 전자 기기가 제공되는 바, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 전술한 의료 데이터 검증 방법을 수행할 수 있도록 한다.
본 출원의 또 다른 양태에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체가 제공되는 바, 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 의료 데이터 검증 방법을 수행하도록 한다.
본 출원의 또 다른 양태에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 전술한 의료 데이터 검증 방법이 실행된다.
본 출원의 기술적 해결수단에 따라, 관련 기술에서 복수의 딥 러닝 모델을 직렬로 연결하여 의료 데이터를 검증하는 방법의 정확도가 떨어지는 문제를 해결한다. 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하고, 각 특징 벡터를 기반으로, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여 복수의 연관 벡터를 획득하며, 따라서 복수의 연관 벡터에 대해 융합 계산하여, 후보 서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 향상시킨다.
본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 출원의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.
도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 출원의 실시예에서 제공된 의료 데이터 검증 방법의 흐름도이다.
도 2는 본 출원의 실시예에서 제공된 분류 모델의 구조 개략도이다.
도 3은 본 출원의 실시예에서 제공된 다른 의료 데이터 검증 방법의 흐름도이다.
도 4는 본 출원의 실시예에서 제공된 또 다른 의료 데이터 검증 방법의 흐름도이다.
도 5는 본 출원의 실시예에서 제공된 의료 데이터 검증 장치의 구조 개략도이다.
도 6은 본 출원의 실시예의 의료 데이터 검증 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
본 출원의 해결수단에 관한 기술 분야에 대해 간단하게 설명한다.
인공 지능은 컴퓨터를 사용하여 인간의 일부 사고 과정과 지능적 행동(학습, 추론, 사고, 계획 등)을 시뮬레이션하는 학과이고, 하드웨어 수준의 기술과 소프트웨어 수준의 기술을 모두 갖는다. 인공 지능 하드웨어 기술에는 일반적으로 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습/ 딥 러닝, 빅 데이터 처리 기술, 지식 그래프 기술과 같은 여러 주요 방향이 포함된다.
AI 의료는 인터넷을 기반으로 하고, 기반 구조 구축 및 데이터 수집을 통해 인공 지능 기술과 빅 데이터 서비스를 의료 산업에 적용하여 의료 산업의 진단 효율성과 서비스 품질을 향상시키고 의료 자원 결핍, 인구 고령화 문제를 더 잘 해결한다. AI 의료는 의료 관련 분야의 응용 상황에 인공 지능 기술을 가능하게 하는 현상인 “인공 지능+의료”로 간소화할 수 있다. 구체적으로, AI는 의료 영상 진단, 만성 질환 관리 및 생활 방식 지도, 질병 조사 및 병리학적 연구, 약물 개발 등 분야에 특히 적용되며, 정밀 의학 분야에서 유전형과 표현형의 격차를 보충하는데 도움이 된다.
딥 러닝은 기계 학습 분야의 새로운 연구 방향으로, 기계 학습에 도입되어 초기의 목표 인공 지능에 더 근접하도록 한다. 딥 러닝은 샘플 데이터의 내재적 법칙과 표현 수준을 학습하는 것으로, 이러한 학습 과정에서 얻은 정보는 문자, 이미지 및 소리 등 데이터 해석에 큰 도움이 된다. 최종 목표는 기계가 인간처럼 분석하고 학습할 수 있는 기능을 가져, 문자, 이미지 및 소리와 같은 데이터를 인식할 수 있도록 하는 것이다. 딥 러닝은 검색 기술, 데이터 마이닝, 기계 학습, 기계 번역, 자연 언어 처리, 멀티미디어 학습, 음성, 추천 및 개인화 기술, 및 다른 관련 분야에서 모두 많은 결과를 얻었다.
지식 그래프는 도서 정보계에서 지식 영역 시각화 또는 지식 영역 매핑 맵으로 지칭되며, 지식 발전 과정과 구조 관계를 나타내는 일련의 다양한 그래프이고, 시각화 기술을 사용하여 지식 자원 및 그 캐리어를 설명하고 지식과 그 상호 관계를 마이닝, 분석, 구성, 제도 및 표시한다. 지식 그래프는 응용 수학, 그래픽, 정보 시각화 기술, 정보 과학과 같은 학과의 이론 및 방법을 계측학 인용 분석 및 동시 발생 분석과 같은 방법과 결합하고, 시각화 그래프를 사용하여 학과의 핵심 구조, 발전 역사, 선두 영역 및 전체 지식 아키텍처가 다학과 융합 목적에 달성하도록 생생하게 표시하는 현대 이론이다.
자연 언어 처리는 컴퓨터 과학 분야와 인공 지능 분야에서 중요한 방향이다. 인간과 컴퓨터 사이의 효과적인 통신을 자연 언어로 실현할 수 있도록 하는 다양한 이론과 방법을 연구한다. 자연 언어 처리는 언어학, 컴퓨터 과학 및 수학을 통합한 과학이다. 따라서, 이 분야의 연구는 자연 언어, 즉 사람들이 일상적으로 하는 언어를 포함하므로 언어학 연구와 밀접한 관련이 있지만 중요한 차이점도 존재한다. 자연 언어 처리는 자연 언어에 대한 일반적인 연구가 아니라 자연 언어 통신, 특히 그중의 소프트웨어 시스템을 효과적으로 실현할 수 있는 컴퓨터 시스템의 개발이다. 따라서 이는 컴퓨터 과학의 일부로 된다.
본 출원의 실시예는 관련 기술에서 복수의 딥 러닝 모델을 직렬로 연결하여 의료 데이터를 검증하는 방법의 정확도가 떨어지는 문제에 대해, 의료 데이터 검증 방법을 제공한다.
아래에 도면을 참조하여 본 출원에서 제공된 의료 데이터 검증 방법, 장치, 전자 기기 및 저장 매체에 대해 상세하게 설명한다.
도 1은 본 출원의 실시예에서 제공된 의료 데이터 검증 방법의 흐름도이다.
도 1에 도시된 바와 같이, 상기 의료 데이터 검증 방법은 하기와 같은 단계를 포함한다.
단계 101에서, 검증할 의료 데이터 및 후보 문서를 획득한다.
설명해야 할 것은, 본 출원의 실시예의 의료 데이터 검증 방법은 본 출원의 실시예의 의료 데이터 검증 장치에 의해 수행될 수 있고, 본 출원의 실시예의 의료 데이터 검증 장치는 임의의 전자 기기에 구성되어 본 출원의 실시예의 의료 데이터 검증 방법을 수행할 수 있다.
검증할 의료 데이터는 현재 그 정확성에 대해 검증해야 하는 의료 사실을 의미할 수 있다.
후보 문서는 의학 서적, 의학 논문, 또는 의학 서적, 의학 논문 중 단편 등과 같은 미리 수집하고 저장된 권위적인 의학 유형의 내용일 수 있다.
본 출원의 실시예에서, 상이한 응용 상황에 대해 상이한 방식을 사용하여 검증할 의료 데이터와 후보 문서를 획득할 수 있다. 선택 가능하게, 본 출원의 실시예의 의료 데이터 검증 방법이 오프라인 상황에 적용될 경우, 네트워크 또는 각 의료 기구의 의료 정보 시스템으로부터 의사가 진단할 때 작성한 대량의 진단 데이터를 미리 추출하여 검증할 의료 데이터 집합을 구성하고, 번마다 검증할 의료 데이터 집합으로부터 하나의 의료 데이터를 획득하여 검증할 의료 데이터로 사용할 수 있으며; 또한 다양한 문헌 및 논문 데이터베이스로부터 의료 관련 문헌을 미리 추출하여 문서 집합을 구성할 수 있고; 이후 검증할 의료 데이터를 획득한 경우, 문서 집합 중 모든 문서를 후보 문서로 하거나, 검증할 의료 데이터를 키워드로 하여 문서 집합에 대해 검색함으로써, 문서 집합으로부터 검증할 의료 데이터 관련 문서를 획득하여 후보 문서로 사용할 수 있다.
선택 가능하게, 본 출원의 실시예의 의료 데이터 검증 방법이 의료 기구의 보조 진단 시스템과 같은 온라인 상황에 적용될 경우, 다양한 문헌, 논문 데이터베이스로부터 의료 관련 문헌을 미리 추출하여 문서 집합을 구성하고, 의료 기구의 의료 정보 시스템의 서버에 저장할 수 있으며, 서버는 의사의 클라이언트로부터 실시간으로 획득된 의사가 작성한 진단 데이터를 검증할 의료 데이터로 사용할 수 있고; 이후 검증할 의료 데이터를 획득한 경우, 문서 집합 중 모든 문서를 후보 문서로 하거나, 검증할 의료 데이터를 키워드로 하여 문서 집합에 대해 검색함으로써, 문서 집합으로부터 검증할 의료 데이터 관련 문서를 획득하여 후보 문서로 사용할 수 있다.
단계 102에서, 자연 언어 처리 모델을 사용하여 의료 데이터 및 후보 문서를 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득한다.
자연 언어 처리 모델은 ERNIE(enhanced representation from knowledge integration, 지식 강화 의미 표현) 모델, BERT 모델일 수 있다. 실제 사용시, 적합한 자연 언어 처리 모델을 선택할 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
설명해야 할 것은, 의료 지식베이스로부터 대량의 의료 지식을 미리 추출하고, 추출한 대량의 의료 지식을 사용하여 자연 언어 처리 모델에 대해 사전 트레이닝하여, 의료 산업 상황에서 자연 언어 처리 모델의 인식 성능을 향상시킬 수 있다.
본 출원의 실시예에서, 딥 러닝 모델을 구축하여, 딥 러닝 모델을 통해 의료 데이터의 검증을 구현할 수 있다. 예를 들어, PaddlePaddle 딥 러닝 계산 프레임의 딥 러닝 모델에 기반하여, 하나의 분류 모델을 설계할 수 있으며, 모델 구조는 도 2에 도시된 바와 같고, 자연 언어 처리 모델, N가지 계산 방식에 대응되는 N개의 분류기, 풀링크 레이어와 softmax 레이어를 포함하며, CLS는 분류 모델에 의해 출력된 신뢰도이다.
본 출원의 실시예에서, 검증할 의료 데이터와 후보 문서를 자연 언어 처리 모델에 입력하여, 자연 언어 처리 모델이 각각 검증할 의료 데이터와 후보 문서에 대해 인식 처리를 수행할 수 있도록 하며, 예를 들어, 우선 검증할 의료 데이터와 후보 문서에 대해 분사 처리를 수행하여 검증할 의료 데이터에 포함된 각 기본 유닛, 및 후보 문서에 포함된 각 기본 유닛을 결정할 수 있고; 이후 검증할 의료 데이터에 포함된 각 기본 유닛에 대응되는 벡터 표현, 즉 검증할 의료 데이터에 대응되는 각 특징 벡터와, 후보 문서에 포함된 각 기본 유닛에 대응되는 벡터 표현, 즉 후보 문서에 대응되는 각 특징 벡터를 결정한다.
설명해야 할 것은, 기본 유닛은 캐릭터, 단어, 구 중 어느 하나의 입도일 수 있고, 자연 언어 처리 모델 자체의 작동 원리와 관계가 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
단계 103에서, 각 특징 벡터를 기반으로, N가지 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하되, N은 1보다 큰 양의 정수이다.
연관 벡터는 검증할 의료 데이터와 후보 문서 사이의 연관 정도를 특성화할 수 있는 벡터를 의미한다.
본 출원의 실시예에서, 다양한 계산 방식을 사용하여 검증할 의료 데이터와 후보 문서 사이의 상관성을 계산하여 검증할 의료 데이터와 후보 문서 상관성 표현의 정확성을 향상시키고, 따라서 의료 데이터 검증의 정확성을 향상시킬 수 있다.
일 가능한 구현 방식으로서, 우선 검증할 의료 데이터에 대응되는 각 특징 벡터를 정합하여 검증할 의료 데이터에 대응되는 제1 특징 행렬을 생성할 수 있고, 후보 문서에 대응되는 각 특징 벡터를 정합하여 후보 문서에 대응되는 제2 특징 행렬을 생성할 수 있다. 이후, N가지 방식을 각각 사용하여 제1 특징 행렬 및 제2 특징 행렬에 대해 계산하고, 각 방식에 대응되는 계산 결과를 하나의 연관 벡터로 결정한다.
설명해야 할 것은, 실제 사용시, N가지 방식은 softmax 연산, 감산 연산, 코사인 연산, 사인 연산, 탄젠트 연산, 덧셈 연산, 곱셈 연산 및 나눗셈 연산 등 연산 방식 중 N가지를 포함할 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
설명해야 할 것은, 특정 방식으로 제1 특징 행렬 및 제2 특징 행렬에 대한 계산 결과가 여전히 행렬이면, 계산하여 얻은 행렬에 대해 전환하여, 계산하여 얻은 행렬을 벡터 형태로 전환함으로써, 상기 방식으로 얻은 연관 벡터를 생성할 수 있다. 예를 들어, 계산하여 얻은 행렬의 각 행 요소 또는 각 열 요소에 대해 합계하거나 평균값을 구하는 계산을 수행하여, 계산하여 얻은 행렬을 연관 벡터로 전환할 수 있다.
예를 들어, 검증할 의료 데이터에는 m개의 캐릭터가 포함되고, 대응되는 각 특징 벡터는 n차원의 행 벡터이며; 후보 문서에는 k개의 캐릭터가 포함되고 대응되는 각 특징 벡터는 n차원의 행 벡터이며; N값은 3이고 N가지 방식은 각각 softmax 연산, 감산 연산, 코사인 연산이고; 검증할 의료 데이터에 대응되는 제1 특징 행렬의 차원은 m×n이며, 후보 문서에 대응되는 제2 특징 행렬의 차원은 k×n이고, 이후 제1 특징 행렬과 제2 특징 행렬에 대해 각각 softmax 연산, 감산 연산, 코사인 연산을 수행하여 검증할 의료 데이터와 후보 문서 사이의 3개의 연관 벡터를 생성할 수 있다.
단계 104에서, N개의 연관 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다.
본 출원의 실시예에서, 검증할 의료 데이터와 후보 문서 사이의 N개의 연관 벡터를 결정한 후, 분류 모델 중 풀링크 레이어를 통해 N개의 연관 벡터에 대해 융합 계산하고, softmax 레이어를 통해 N개의 연관 벡터의 융합 결과에 따라 분류 처리를 수행함으로써 검증할 의료 데이터의 후보 문서에 기반한 신뢰도를 출력할 수 있다. 구체적으로, 검증할 의료 데이터의 후보 문서에 기반한 신뢰도가 클수록, 후보 문서가 검증할 의료 데이터 신뢰를 증명하는 증거로 지원될 가능성이 더 높다는 것을 설명하고; 반대로, 후보 문서가 검증할 의료 데이터 신뢰를 증명하는 증거로 지원될 가능성이 더 작다는 것을 설명한다.
일 가능한 구현 방식으로서, 의료 그래프 장면의 구축에서, 의료 데이터의 후보 문서에 기반한 신뢰도를 결정한 후, 검증할 의료 데이터의 신뢰도가 신뢰도 임계값보다 크거나 같을 경우, 검증할 의료 데이터가 성립되었음을 결정할 수 있고, 상응한 후보 문서와 상기 검증할 의료 데이터를 연관하여 저장함으로써 의료 그래프를 확장한다.
설명해야 할 것은, 검증할 의료 데이터에 대응되는 후보 문서가 복수 개이면, 임의의 하나의 후보 문서를 기반으로, 검증할 의료 데이터의 신뢰도가 신뢰도 임계값보다 크거나 같을 경우, 검증할 의료 데이터가 성립되었음을 결정할 수 있고, 상기 검증할 의료 데이터의 신뢰도를 가장 크도록 하는 후보 문서와 상기 검증할 의료 데이터를 연관하여 저장함으로써 의료 그래프를 확장한다.
본 출원의 실시예의 기술적 해결수단에 따르면, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하고, 각 특징 벡터를 기반으로, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여 복수의 연관 벡터를 획득하며, 따라서 복수의 연관 벡터에 대해 융합 계산하여, 후보 서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 향상시킨다.
본 출원의 일 가능한 구현 형태에서, 검증할 의료 데이터는 SPO 트리플의 형태로 표시할 수 있는 바, S는 엔티티를 표시하고, P는 속성을 표시하며, O는 속성값을 표시하고, 따라서 S, P, O와 후보 증거 사이의 각 연관성에 따라, 검증할 의료 데이터의 성립 여부를 결정함으로써, 의료 데이터 검증의 정확성을 더 향상시킨다.
아래에 도 3을 결부하여, 본 출원의 실시예에서 제공된 의료 데이터 검증 방법에 대해 더 설명한다.
도 3은 본 출원의 실시예에서 제공된 다른 의료 데이터 검증 방법의 흐름도이다.
도 3에 도시된 바와 같이, 상기 의료 데이터 검증 방법은 하기와 같은 단계를 포함한다.
단계 201에서, 검증할 의료 데이터 및 후보 문서를 획득한다.
상기 단계 201의 구체적인 구현 과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있으며, 더이상 서술하지 않는다.
단계 202에서, 자연 언어 처리 모델을 사용하여 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터에 포함된 엔티티에 대응되는 제1 특징 벡터, 속성에 대응되는 제2 특징 벡터, 속성값에 대응되는 제3 특징 벡터, 및 후보 문서에 대응되는 제4 특징 벡터를 획득하되, 의료 데이터에는 엔티티, 속성 및 속성값이 포함된다.
본 출원의 실시예에서, 각 검증할 의료 데이터는 SPO 트리플의 형태로 표시할 수 있는 바, S는 엔티티를 표시하고, P는 속성을 표시하며, O는 속성값을 표시한다. 엔티티는 구체적인 질병을 의미할 수 있고; 속성은 임상 특징, 병인 병리, 검사 검증, 권장 수술, 치료 방안, 추천 약물, 약물 효과, 합병증 중 적어도 하나를 포함할 수 있으며; 속성값은 상응한 속성의 구체적인 값을 의미한다. 의료 데이터<홍역, 증상, 피부 반점상 구진>을 예로 들면, 엔티티 S는 홍역, 속성 P는 증상, 속성값 O는 피부 반점상 구진이다.
본 출원의 실시예에서, 검증할 의료 데이터의 표현 형태가 SPO 트리플이면, 검증할 의료 데이터와 후보 문서를 “S[SEP]P[SEP]O[SEP]PARA”의 형태로 자연 언어 처리 모델에 입력하여, 자연 언어 처리 모델이 검증할 의료 데이터에 포함된 엔티티, 속성, 속성값 및 후보 문서에 대해 각각 인식 처리를 수행하여, 엔티티, 속성, 속성값 및 후보 문서에 대응되는 벡터 표현, 즉 엔티티에 대응되는 제1 특징 벡터, 속성에 대응되는 제2 특징 벡터, 속성값에 대응되는 제3 특징 벡터, 및 후보 문서에 대응되는 제4 특징 벡터를 출력할 수 있도록 한다. PARA는 후보 문서이고, [SEP]는 구분 문자이다.
설명해야 할 것은, 자연 언어 처리 모델이 엔티티, 속성, 속성값 및 후보 문서를 각각 복수의 기본 유닛으로 나누어 처리하여, 각각의 기본 유닛에 대응되는 벡터 표현을 생성하면, 제1 특징 벡터, 제2 특징 벡터, 제3 특징 벡터, 제4 특징 벡터는 모두 복수의 벡터 표현으로 구성될 수 있고, 즉 제1 특징 벡터, 제2 특징 벡터, 제3 특징 벡터, 제4 특징 벡터의 표현 형태는 행렬일 수 있다.
또한, 의료 데이터의 엔티티와 속성 사이, 및 속성과 속성값 사이의 구체적으로 비교적 강한 의존 관계로 인해, 또한 SP에 대응되는 벡터 표현, 및 PO에 대응되는 벡터 표현을 결정하여, 의료 데이터에 대해 표현하는 정확성을 향상시킬 수 있다. 즉 본 출원의 실시예의 일 가능한 구현 형태에서, 상기 방법은,
엔티티와 속성에 대응되는 제5 특징 벡터, 속성과 속성값에 대응되는 제6 특징 벡터, 및 엔티티와 속성값에 대응되는 제7 특징 벡터 중 적어도 하나를 획득하는 단계;를 더 포함할 수 있다.
본 출원의 실시예에서, 또한 자연 언어 처리 모델에 대해 미리 트레이닝하여, 자연 언어 처리 모델이 입력된 의료 데이터의 엔티티, 속성, 속성값에 따라 엔티티와 속성에 대응되는 제5 특징 벡터, 속성과 속성값에 대응되는 제6 특징 벡터, 및 엔티티와 속성값에 대응되는 제7 특징 벡터 중 적어도 하나를 결정하도록 하고, 엔티티와 속성의 관계, 속성과 속성값의 관계, 엔티티와 속성값의 관계 등 복수의 측면으로부터 검증할 의료 데이터에 대해 전면적이고 완전하게 설명할 수 있다.
일 가능한 구현 방식으로서, 의료 데이터에 있어서 엔티티와 속성 사이의 관계 정보, 및 속성과 속성값 사이의 관계 정보가 보다 더 중요하므로, 자연 언어 처리 모델을 통해 엔티티와 속성에 대응되는 제5 특징 벡터, 및 속성과 속성값에 대응되는 제6 특징 벡터를 생성할 수 있다.
단계 203에서, N가지 방식을 각각 사용하여, 제1 특징 벡터와 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제1 유형 연관 벡터를 획득한다.
본 출원의 실시예에서, 자연 언어 처리 모델을 통해 검증할 의료 데이터와 후보 문서의 벡터 표현을 결정한 후, 엔티티와 후보 문서의 연관성, 속성과 후보 문서의 연관성, 및 속성값과 후보 문서의 연관성을 각각 결정하여, 복수의 차원으로부터 검증할 의학 데이터와 후보 문서 사이의 상관성을 설명함으로써, 의료 데이터 검증의 정확도를 더 향상시킬 수 있다.
일 가능한 구현 방식으로서, 우선 N가지 방식을 각각 사용하여 제1 특징 벡터와 제4 특징 벡터에 대해 계산하고, 각 방식에 대응되는 계산 결과를 엔티티와 후보 문서 사이의 상관성을 특성화하는 하나의 제1 유형 연관 벡터로 결정할 수 있다.
단계 204에서, N가지 방식을 각각 사용하여, 제2 특징 벡터와 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제2 유형 연관 벡터를 획득한다.
본 출원의 실시예에서, N가지 방식을 각각 사용하여 제2 특징 벡터와 제4 특징 벡터에 대해 계산하고, 각 방식에 대응되는 계산 결과를 속성과 후보 문서 사이의 상관성을 특성화하는 하나의 제2 유형 연관 벡터로 결정할 수 있다.
단계 205에서, N가지 방식을 각각 사용하여, 제3 특징 벡터와 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제3 유형 연관 벡터를 획득한다.
본 출원의 실시예에서, N가지 방식을 각각 사용하여 제3 특징 벡터와 제4 특징 벡터에에 대해 계산하고, 각 방식에 대응되는 계산 결과를 속성값과 후보 문서 사이의 상관성을 특성화하는 하나의 제3 유형 연관 벡터로 결정할 수 있다.
설명해야 할 것은, 본 실시예에서 N가지 방식은 상기 실시예에 설명된 연산 방식과 동일할 수 있고, 제1 유형 연관 벡터, 제2 유형 연관 벡터, 제3 유형 연관 벡터의 구체적인 구현 과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있으며, 더이상 서술하지 않는다.
또한, 전술한 단계에서 자연 언어 처리 모델을 통해 엔티티와 속성에 대응되는 제5 특징 벡터, 속성과 속성값에 대응되는 제6 특징 벡터, 및 엔티티와 속성값에 대응되는 제7 특징 벡터를 생성하면, 또한 N가지 방식을 사용하여 제5 특징 벡터와 제4 특징 벡터에 대해 계산하고, 각 방식에 대응되는 계산 결과를 SP와 후보 문서 사이의 상관성을 특성화하는 하나의 제5 유형 연관 벡터로 결정하고; 및 N가지 방식을 사용하여 제6 특징 벡터와 제4 특징 벡터에 대해 계산하고, 각 방식에 대응되는 계산 결과를 PO와 후보 문서 사이의 상관성을 특성화하는 하나의 제6 유형 연관 벡터로 결정하며; 또한 N가지 방식을 사용하여 제7 특징 벡터와 제4 특징 벡터에 대해 계산하고, 각 방식에 대응되는 계산 결과를 SO와 후보 문서 사이의 상관성을 특성화하는 하나의 제7 유형 연관 벡터로 결정한다.
단계 206에서, 연관 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정한다.
본 출원의 실시예에서, 검증할 의료 데이터에 대응되는 SPO 트리플과 후보 문서의 각 유형 연관 벡터를 결정한 후, 풀링크 레이어를 통해 각 유형 연관 벡터에 대해 융합 계산하여 검증할 의료 데이터의 후보 문서에 기반한 신뢰도를 생성할 수 있다.
일 가능한 구현 방식으로서, 각 유형 연관 벡터에 대해 융합 처리하여, 엔티티, 속성, 속성값과 후보 문서의 각각의 전체 연관성을 결정할 수 있다. 즉 본 출원의 실시예의 일 가능한 구현 형태에서, 상기 단계 206은,
N개의 제1 유형 연관 벡터를 융합하여, 제1 융합 벡터를 획득하는 단계;
N개의 제2 유형 연관 벡터를 융합하여, 제2 융합 벡터를 획득하는 단계;
N개의 제3 유형 연관 벡터를 융합하여, 제3 융합 벡터를 획득하는 단계; 및,
제1 융합 벡터, 제2 융합 벡터 및 제3 융합 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 단계;를 포함할 수 있다.
본 출원의 실시예에서, N개의 제1 유형 연관 벡터를 스플라이싱하여 제1 융합 벡터를 생성하거나; N개의 제1 유형 연관 벡터의 합을 제1 융합 벡터로 결정하거나; N개의 제1 유형 연관 벡터의 평균값을 제1 융합 벡터로 결정하거나; 또한 N개의 제1 유형 연관 벡터의 중요 정도에 따라, N개의 제1 유형 연관 벡터에 대해 상이한 가중치를 각각 부여하고, N개의 제1 유형 연관 벡터의 가중합을 제1 융합 벡터로 결정할 수 있다.
상응하게, 상기 동일한 방식을 사용하여 N개의 제2 유형 연관 벡터, 및 N개의 제3 유형 연관 벡터에 대해 각각 융합 처리하여, 제2 융합 벡터 및 제3 융합 벡터를 생성할 수 있으며, 더이상 서술하지 않는다.
설명해야 할 것은, 제1 유형 연관 벡터, 제2 유형 연관 벡터 및 제3 유형 연관 벡터에 대해 융합하는 방식은 이상 열거한 경우를 포함할 수 있지만 이에 한정되지 않는다. 실제 사용 시, 실제 수요 및 구체적인 응용 상황에 따라 각 유형 연관 벡터에 대해 융합 처리하는 방식을 결정할 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
본 출원의 실시예에서, 제1 융합 벡터가 검증할 의학 데이터 중 엔티티와 후보 문서의 전체 상관성을 반영할 수 있고, 제2 융합 벡터가 검증할 의학 데이터 중 속성과 후보 문서의 전체 상관성을 반영할 수 있으며, 제3 융합 벡터가 검증할 의학 데이터 중 속성값과 후보 문서의 전체 상관성을 반영할 수 있으므로, 분류 모델 중 softmax 레이어를 통해 제1 융합 벡터, 제2 융합 벡터 및 제3 융합 벡터에 대해 융합 계산하여 검증할 의료 데이터와 후보 문서의 전체 상관성, 즉 검증할 의료 데이터의 후보 문서에 기반한 신뢰도를 생성할 수 있다.
이해할 수 있는 것은, 상기 단계에서 N개의 제5 유형 연관 벡터, N개의 제6 유형 연관 벡터 또는 N개의 제7 유형 연관 벡터가 생성되면, 또한 상기 방식을 따라 제5 유형 연관 벡터, 제6 유형 연관 벡터 및 제7 유형 연관 벡터에 대해 각각 융합 처리하여 제5 융합 벡터, 제6 융합 벡터 및 제7 융합 벡터를 생성할 수 있다. 따라서 제1 융합 벡터, 제2 융합 벡터, 제3 융합 벡터, 제5 융합 벡터, 제6 융합 벡터 및 제7 융합 벡터에 대해 융합 계산하여 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다.
다른 가능한 구현 방식으로서, 또한 각 유형 연관 벡터를 직접 융합하여, 융합된 벡터를 통해 검증할 의료 데이터와 후보 문서의 전체 연관도를 특성화할 수 있다. 즉 본 출원의 실시예의 일 가능한 구현 형태에서, 상기 방법은,
N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터를 융합하여, 제4 융합 벡터를 생성하는 단계; 및,
제4 융합 벡터에 대해 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 단계;를 더 포함할 수 있다.
본 출원의 실시예에서, N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터를 스플라이싱하여, 제4 융합 벡터를 생성하거나; N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터의 합을 제4 융합 벡터로 결정하거나; N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터의 평균값을 제4 융합 벡터로 결정하거나; 또한 엔티티, 속성 및 속성값과 후보 문서 사이의 연관성의 중요 정도에 따라, 제1 유형 연관 벡터, 제2 유형 연관 벡터 및 제3 유형 연관 벡터에 대해 상이한 가중치를 각각 부여하여, N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터의 가중합을 제4 융합 벡터로 결정할 수 있다.
설명해야 할 것은, 제1 유형 연관 벡터, 제2 유형 연관 벡터 및 제3 유형 연관 벡터에 대해 융합하는 방식은 이상 열거한 경우를 포함할 수 있지만 이에 한정되지 않는다. 실제 사용 시, 실제 수요 및 구체적인 응용 상황에 따라 연관 벡터에 대해 융합 처리하는 방식을 결정할 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
이해할 수 있는 것은, 상기 단계에서 N개의 제5 유형 연관 벡터, N개의 제6 유형 연관 벡터 또는 N개의 제7 유형 연관 벡터가 생성되면, 또한 상기 방식을 따라 N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터, N개의 제3 유형 연관 벡터, N개의 제5 유형 연관 벡터, N개의 제6 유형 연관 벡터 및 N개의 제7 유형 연관 벡터에 대해 각각 융합 처리하여 제4 융합 벡터를 생성할 수 있다.
본 출원의 실시예에서, 제4 융합 벡터가 검증할 의학 데이터와 후보 문서의 전체 상관성을 반영할 수 있으므로, 분류 모델 중 softmax 레이어를 통해 제4 융합 벡터에 대해 계산하여 검증할 의료 데이터와 후보 문서의 전체 상관성, 즉 검증할 의료 데이터의 후보 문서에 기반한 신뢰도를 생성할 수 있다.
본 출원의 실시예의 기술적 해결수단에 따르면, SPO 트리플의 형태를 통해 검증할 의료 데이터를 표시하고, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 중 엔티티에 대응되는 제1 특징 벡터, 속성에 대응되는 제2 특징 벡터, 속성값에 대응되는 제3 특징 벡터, 및 후보 문서에 대응되는 제4 특징 벡터를 획득하며, 또한 다양한 방식을 사용하여 엔티티, 속성, 속성값과 후보 문서 사이의 상관성을 각각 계산하여 복수의 제1 유형, 제2 유형, 제3 유형 연관 벡터를 획득하고, 따라서 다양한 연관 벡터에 대해 융합 계산하여 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터의 각 차원으로부터 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 더 향상시킨다.
본 출원의 일 가능한 구현 형태에서, 우선 권위적인 의료 데이터베이스로부터 검증할 의료 데이터와 관련된 문서를 검색하여 후보 문서로 하여, 후보 문서의 개수를 감소시킬 수 있고; 또한 계산 벡터 사이에서 상이한 계산 방식의 연관도의 관심점이 상이하므로, 상이한 연관 벡터의 중요 정도가 상이하도록 하며, 따라서 상이한 계산 방식에 대해 상이한 가중치를 부여하여, 의료 데이터와 후보 문서 사이의 연관성 표현의 정확성을 더 향상시킬 수 있다.
아래에 도 4를 결부하여, 본 출원의 실시예에서 제공된 의료 데이터 검증 방법에 대해 더 설명한다.
도 4는 본 출원의 실시예에서 제공된 또 다른 의료 데이터 검증 방법의 흐름도이다.
도 4에 도시된 바와 같이, 상기 의료 데이터 검증 방법은 하기와 같은 단계를 포함한다.
단계 301에서, 검증할 의료 데이터 및 이에 대응되는 설명 텍스트를 획득한다.
검증할 의료 데이터에 대응되는 설명 텍스트는 검증할 의료 데이터를 추출할 때 사용되는 초기 텍스트를 의미할 수 있다.
본 출원의 실시예에서, 실제 응용 상황에 따라 환자의 진료 기록, 의사가 발급한 진단서, 약 복용 기록 등 초기 텍스트에서, SPO 트리플 데이터를 추출하여, 검증할 의료 데이터를 구성하며, 검증할 의료 데이터의 기반이 되는 요소 텍스트를 추출하여 대응되는 설명 텍스트로 결정할 수 있다.
예를 들어, 본 출원의 실시예의 의료 데이터 검증 방법이 의료 기구의 보조 진단 상황에 적용될 경우, 서버가 획득한 의사 클라이언트에 의해 송신된 진단 결과는 “체표면에 피부 반점상 구진이 나타나며, 홍역으로 확진함”이고, 이로써 진단 결과로부터 추출한 검증할 의료 데이터는 <홍역, 증상, 피부 반점상 구진>이며, 진단 결과 “체표면에 피부 반점상 구진이 나타나며, 홍역으로 확진함”을 대응되는 설명 텍스트로 결정할 수 있다.
단계 302에서, 설명 텍스트와 데이터베이스 중 각각의 문서의 상관성에 따라, 데이터베이스로부터 설명 텍스트와 연관된 후보 문서를 획득한다.
본 출원의 실시예에서, 설명 텍스트를 검색 키워드로 하여 데이터베이스에서 검색하거나, 설명 텍스트에 대해 키워드 추출을 수행할 수 있으며, 따라서 추출된 키워드를 검색 키워드로 하여 데이터베이스에서 검색하여, 설명 텍스트와 데이터베이스 중 각각의 문서의 상관성을 결정하며, 따라서 설명 텍스트와 데이터베이스 중 각각의 문서의 상관성에 따라, 데이터베이스 중 각 문서에 대해 내림차순으로 배열한 후, 각 문서로부터 설명 텍스트와의 상관성가 비교적 높은 문서를 선택하여 후보 문서로 한다. 예를 들어, 설명 텍스트와의 상관성가 가장 큰 M(M은 양의 정수이고, 예를 들어 M=1임)개의 문서를 후보 문서로 결정하거나; 또한 상관성 임계값을 미리 설정할 수 있으며, 설명 텍스트와의 상관성가 상관성 임계값보다 크거나 같은 문서를 후보 문서로 결정할 수 있고, 본 출원의 실시예는 이에 대해 한정하지 않는다.
예를 들어, 기설정된 상관성 임계값이 0.8이고, 설명 텍스트가 “체표면에 피부 반점상 구진이 나타나며, 홍역으로 확진함”이면, 상기 설명 텍스트를 키워드로 하여 데이터베이스에서 검색하고, 문서 A“《전염병학》제8버전 제5절 홍역: 홍역(measles)은 홍역 바이러스(measles virus)로 인한 바이러스 감염성 전염병으로, 중국의 합법적인 전염병 중 B급 전염병에 속한다. 주요 임상 증상으로는 발열, 기침, 콧물과 같은 카타르 증상과 결막염이 있으며, 특징적인 증상은 구강 홍역 점막 반점(Koplik spots)과 피부 반점상 구진이다”를 결정하며, 설명 텍스트와의 상관성가 0.9이면 《전염병학》 제8버전 제5절 홍역 중 이 단락의 문서를 후보 문서로 결정할 수 있다.
설명해야 할 것은, 데이터베이스는 사전에 지정된 의료 데이터베이스일 수 있으며, 의료 데이터베이스에는 서적, 잡지 및 논문 등을 포함한 다양한 권위적인 의료 자료가 저장될 수 있다.
단계 303에서, 자연 언어 처리 모델을 사용하여 의료 데이터 및 후보 문서를 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득한다.
단계 304에서, 각 특징 벡터를 기반으로, N가지 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하되, N은 1보다 큰 양의 정수이다.
상기 단계 303 내지 단계 304의 구체적인 구현 과정 및 원리는 상기 실시예의 상세한 설명을 참조할 수 있으며, 더이상 서술하지 않는다.
단계 305에서, 각 계산 방식에 대응되는 가중치를 결정한다.
본 출원의 실시예에서, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산할 경우, 각 계산 방식의 벡터 사이의 차이와 연관에 대한 관심점이 상이하므로, 의료 데이터와 후보 문서 사이의 상관성을 특성화할 때의 각 연관 벡터의 중요 정도에 차이가 존재하도록 하며, 따라서 각 계산 방식의 관련 표현에 대한 중요 정도에 따라, 각 계산 방식에 대응되는 가중치를 결정할 수 있다. 예를 들어, N가지 계산 방식이 각각 softmax 연산, 감산 연산, 코사인 연산이면, 코사인 연산의 가중치는 softmax 연산의 가중치보다 크고, softmax 연산의 가중치는 감산 연산의 가중치보다 큰 것으로 결정할 수 있다.
설명해야 할 것은, 상기 열거는 단지 예시적인 것으로, 본 출원에 대한 한정으로 간주할 수 없다. 실제 사용 시, 실제 수요 및 다양한 계산 방식의 특징에 따라, 각 계산 방식에 대응되는 가중치를 결정할 수 있으며, 본 출원의 실시예는 이에 대해 한정하지 않는다.
단계 306에서, 각 계산 방식에 대응되는 가중치를 기반으로, N개의 연관 벡터에 대해 가중 융합하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다.
본 출원의 실시예에서, N개의 연관 벡터에 대해 융합 처리할 경우, 각각의 연관 벡터에 대응되는 계산 방식의 가중치에 따라, N개의 연관 벡터의 가중합을 결정하고, 분류 모델의 softmax 레이어를 사용하여 N개의 연관 벡터의 가중합에 따라, 검증할 의료 데이터의 후보 문서에 기반한 신뢰도를 결정할 수 있다.
본 출원의 실시예의 기술적 해결수단에 따르면, 검증할 의료 데이터에 대응되는 설명 텍스트에 따라, 데이터베이스로부터 검증할 의료 데이터와 연관된 후보 문서를 검색하고, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하고, 각 특징 벡터를 기반으로, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여 복수의 연관 벡터를 획득함으로써, 각 계산 방식에 대응되는 가중치를 기반으로, N개의 연관 벡터에 대해 가중 융합하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 권위적인 의료 데이터베이스로부터 검증할 의료 데이터와 관련된 문서를 검색하여 후보 문서로 하여, 후보 문서의 개수를 감소시키고, 각 계산 방식의 중요 정도에 따라, 각 연관 벡터의 상이한 가중치를 부여하여, 의료 데이터와 후보 문서 사이의 연관성 표현의 정확성을 더 향상시킴으로써, 의료 데이터 검증의 정확성을 더 향상시킬 뿐만 아니라, 의료 데이터 검증의 계산 복잡도를 감소시킨다.
상기 실시예를 구현하기 위해, 본 출원은 의료 데이터 검증 장치를 더 제공한다.
도 5는 본 출원의 실시예에서 제공된 의료 데이터 검증 장치의 구조 개략도이다.
도 5에 도시된 바와 같이, 상기 의료 데이터 검증 장치(40)는,
검증할 의료 데이터 및 후보 문서를 획득하는 제1 획득 모듈(41);
자연 언어 처리 모델을 사용하여 의료 데이터 및 후보 문서를 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 제2 획득 모듈(42);
각 특징 벡터를 기반으로, N가지 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 제3 획득 모듈(43) - N은 1보다 큰 양의 정수임 -; 및,
N개의 연관 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 결정 모듈(44);을 포함한다.
실제 사용 시, 본 출원의 실시예에서 제공된 의료 데이터 검증 장치는 임의의 전자 기기에 구성되어 전술한 의료 데이터 검증 방법을 수행할 수 있다.
본 출원의 실시예의 기술적 해결수단에 따르면, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하고, 각 특징 벡터를 기반으로, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여 복수의 연관 벡터를 획득하며, 따라서 복수의 연관 벡터에 대해 융합 계산하여, 후보 서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 향상시킨다.
본 출원의 일 가능한 구현 형태에서, 상기 의료 데이터에는 엔티티, 속성 및 속성값이 포함되고, 상응하게, 상기 제2 획득 모듈(42)은,
엔티티에 대응되는 제1 특징 벡터, 속성에 대응되는 제2 특징 벡터, 속성값에 대응되는 제3 특징 벡터, 및 후보 문서에 대응되는 제4 특징 벡터를 획득하는 제1 획득 유닛;을 포함한다.
또한, 본 출원의 다른 가능한 구현 형태에서, 상기 제2 획득 모듈(42)은,
엔티티와 속성에 대응되는 제5 특징 벡터, 속성과 속성값에 대응되는 제6 특징 벡터, 및 엔티티와 속성값에 대응되는 제7 특징 벡터 중 적어도 하나를 획득하는 제2 획득 유닛;을 더 포함한다.
또한, 본 출원의 또 다른 가능한 구현 형태에서, 상기 제3 획득 모듈(43)은,
N가지 방식을 각각 사용하여, 제1 특징 벡터과 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제1 유형 연관 벡터를 획득하는 제1 계산 유닛;
N가지 방식을 각각 사용하여, 제2 특징 벡터와 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제2 유형 연관 벡터를 획득하는 제2 계산 유닛; 및,
N가지 방식을 각각 사용하여, 제3 특징 벡터와 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제3 유형 연관 벡터를 획득하는 제3 계산 유닛;을 포함한다.
또한, 본 출원의 다른 가능한 구현 형태에서, 상기 결정 모듈(44)은,
N개의 제1 유형 연관 벡터를 융합하여, 제1 융합 벡터를 획득하는 제1 융합 유닛;
N개의 제2 유형 연관 벡터를 융합하여, 제2 융합 벡터를 획득하는 제2 융합 유닛;
N개의 제3 유형 연관 벡터를 융합하여, 제3 융합 벡터를 획득하는 제3 융합 유닛; 및,
제1 융합 벡터, 제2 융합 벡터 및 제3 융합 벡터에 대해 융합 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 제1 결정 유닛;을 포함한다.
또한, 본 출원의 다른 가능한 구현 형태에서, 상기 결정 모듈(44)은,
N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터를 융합하여, 제4 융합 벡터를 생성하는 제4 융합 유닛; 및,
제4 융합 벡터에 대해 계산하여, 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정하는 제2 결정 유닛;을 포함한다.
또한, 본 출원의 다른 가능한 구현 형태에서, 상기 결정 모듈(44)은,
각 계산 방식에 대응되는 가중치를 결정하는 제3 결정 유닛; 및,
각 계산 방식에 대응되는 가중치를 기반으로, N개의 연관 벡터에 대해 가중 융합하는 제5 융합 유닛;을 포함한다.
또한, 본 출원의 또 다른 가능한 구현 형태에서, 상기 제1 획득 모듈(41)은,
검증할 의료 데이터 및 이에 대응되는 설명 텍스트를 획득하는 제3 획득 유닛; 및,
설명 텍스트와 데이터베이스 중 각각의 문서의 상관성에 따라, 데이터베이스로부터 설명 텍스트와 연관된 후보 문서를 획득하는 제4 획득 유닛;을 포함한다.
설명해야 할 것은, 전술한 도 1, 도 3, 도 4에 도시된 의료 데이터 검증 방법 실시예의 해석 설명은 또한 상기 실시예의 의료 데이터 검증 장치(40)에 적용되며, 더이상 서술하지 않는다.
본 출원의 실시예의 기술적 해결수단에 따르면, SPO 트리플의 형태를 통해 검증할 의료 데이터를 표시하고, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 중 엔티티에 대응되는 제1 특징 벡터, 속성에 대응되는 제2 특징 벡터, 속성값에 대응되는 제3 특징 벡터, 및 후보 문서에 대응되는 제4 특징 벡터를 획득하며, 또한 다양한 방식을 사용하여 엔티티, 속성, 속성값과 후보 문서 사이의 상관성을 각각 계산하여 복수의 제1 유형, 제2 유형, 제3 유형 연관 벡터를 획득하고, 따라서 다양한 연관 벡터에 대해 융합 계산하여 후보 문서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터의 각 차원으로부터 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 더 향상시킨다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 의료 데이터 검증 방법이 실행된다.
도 6에 도시된 바와 같이, 본 출원의 실시예에 따른 의료 데이터 검증 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 출원의 구현을 한정하지 않는다.
도 6에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(501), 메모리(502), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령은, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 6에서는 하나의 프로세서(501)를 예로 한다.
메모리(502)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 의료 데이터 검증 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 의료 데이터 검증 방법을 수행하도록 한다.
메모리(502)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 의료 데이터 검증 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 제1 획득 모듈(41), 제2 획득 모듈(42), 제3 획득 모듈(43) 및 결정 모듈(44))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(501)는 메모리(502)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 의료 데이터 검증 방법을 구현한다.
메모리(502)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 의료 데이터 검증 방법의 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(502)는 프로세서(501)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 의료 데이터 검증 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
의료 데이터 검증 방법의 전자 기기는, 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 6에서는 버스를 통한 연결을 예로 한다.
입력 장치(503)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 의료 데이터 검증 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(504)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, 용어 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 “기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트로도 지칭되는 클라우드 서버일 수 있으며, 기존의 물리적 호스트와 VPS(Virtual Private Server, 가상 전용 서버) 서비스에서 존재하는 관리가 어렵고, 비즈니스 확장성이 약한 결함을 해결하기 위한 클라우드 컴퓨팅 서비스 시스템 중 하나의 호스트 제품이다.
본 출원의 실시예의 기술적 해결수단에 따르면, 자연 언어 처리 모델을 사용하여 검증할 의료 데이터 및 후보 문서에 대해 처리하여, 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하고, 각 특징 벡터를 기반으로, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여 복수의 연관 벡터를 획득하며, 따라서 복수의 연관 벡터에 대해 융합 계산하여, 후보 서에 기반하는 경우, 의료 데이터의 신뢰도를 결정한다. 이로써, 하나의 엔드 투 엔드의 딥 러닝 모델을 통해, 다양한 방식을 사용하여 의료 데이터와 후보 문서 사이의 상관성을 계산하여, 다차원으로부터 의료 데이터와 후보 문서 사이의 연관 및 차이를 정확하게 나타내고, 또한 엔드 투 엔드 모델은 오차 누적을 생성하지 않음으로써, 의료 데이터 검증의 정확성을 향상시킨다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 한정되지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진해할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 속해야 한다.

Claims (19)

  1. 의료 데이터 검증 방법에 있어서,
    검증할 의료 데이터 및 후보 문서를 획득하는 단계;
    자연 언어 처리 모델을 사용하여 상기 의료 데이터 및 후보 문서를 처리하여, 상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 단계;
    상기 각 특징 벡터를 기반으로, N가지 방식을 사용하여 상기 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 단계 - N은 1보다 큰 양의 정수임 - ; 및,
    상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  2. 제1항에 있어서,
    상기 의료 데이터에는 엔티티, 속성 및 속성값이 포함되고, 상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 단계는,
    상기 엔티티에 대응되는 제1 특징 벡터, 상기 속성에 대응되는 제2 특징 벡터, 상기 속성값에 대응되는 제3 특징 벡터, 및 상기 후보 문서에 대응되는 제4 특징 벡터를 획득하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  3. 제2항에 있어서,
    상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 단계는,
    상기 엔티티와 속성에 대응되는 제5 특징 벡터, 상기 속성과 속성값에 대응되는 제6 특징 벡터, 및 상기 엔티티와 속성값에 대응되는 제7 특징 벡터 중 적어도 하나를 획득하는 단계;를 더 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  4. 제2항에 있어서,
    상기 N가지 방식을 사용하여 상기 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 단계는,
    N가지 방식을 각각 사용하여, 상기 제1 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제1 유형 연관 벡터를 획득하는 단계;
    N가지 방식을 각각 사용하여, 상기 제2 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제2 유형 연관 벡터를 획득하는 단계; 및,
    N가지 방식을 각각 사용하여, 상기 제3 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제3 유형 연관 벡터를 획득하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  5. 제4항에 있어서,
    상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계는,
    상기 N개의 제1 유형 연관 벡터를 융합하여, 제1 융합 벡터를 획득하는 단계;
    상기 N개의 제2 유형 연관 벡터를 융합하여, 제2 융합 벡터를 획득하는 단계;
    상기 N개의 제3 유형 연관 벡터를 융합하여, 제3 융합 벡터를 획득하는 단계; 및,
    상기 제1 융합 벡터, 제2 융합 벡터 및 제3 융합 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  6. 제4항에 있어서,
    상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계는,
    상기 N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터를 융합하여, 제4 융합 벡터를 생성하는 단계; 및,
    상기 제4 융합 벡터에 대해 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  7. 제1항에 있어서,
    상기 N개의 연관 벡터에 대해 융합하는 단계는,
    각 계산 방식에 대응되는 가중치를 결정하는 단계; 및,
    각 계산 방식에 대응되는 가중치를 기반으로, 상기 N개의 연관 벡터에 대해 가중 융합하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  8. 제1항에 있어서,
    상기 검증할 의료 데이터 및 후보 문서를 획득하는 단계는,
    검증할 의료 데이터 및 이에 대응되는 설명 텍스트를 획득하는 단계;
    상기 설명 텍스트와 데이터베이스 중 각각의 문서의 상관성에 따라, 상기 데이터베이스로부터 상기 설명 텍스트와 연관된 후보 문서를 획득하는 단계;를 포함하는,
    것을 특징으로 하는 의료 데이터 검증 방법.
  9. 의료 데이터 검증 장치에 있어서,
    검증할 의료 데이터 및 후보 문서를 획득하는 제1 획득 모듈;
    자연 언어 처리 모델을 사용하여 상기 의료 데이터 및 후보 문서를 처리하여, 상기 의료 데이터 및 후보 문서에 각각 대응되는 각 특징 벡터를 획득하는 제2 획득 모듈;
    상기 각 특징 벡터를 기반으로, N가지 방식을 사용하여 상기 의료 데이터와 후보 문서 사이의 상관성을 계산하여, N개의 연관 벡터를 획득하는 제3 획득 모듈 - N은 1보다 큰 양의 정수임 - ; 및,
    상기 N개의 연관 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 결정 모듈;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  10. 제9항에 있어서,
    상기 의료 데이터에는 엔티티, 속성 및 속성값이 포함되고, 상기 제2 획득 모듈은,
    상기 엔티티에 대응되는 제1 특징 벡터, 상기 속성에 대응되는 제2 특징 벡터, 상기 속성값에 대응되는 제3 특징 벡터, 및 상기 후보 문서에 대응되는 제4 특징 벡터를 획득하는 제1 획득 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  11. 제10항에 있어서,
    상기 제2 획득 모듈은,
    상기 엔티티와 속성에 대응되는 제5 특징 벡터, 상기 속성과 속성값에 대응되는 제6 특징 벡터, 및 상기 엔티티와 속성값에 대응되는 제7 특징 벡터 중 적어도 하나를 획득하는 제2 획득 유닛;을 더 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  12. 제10항에 있어서,
    상기 제3 획득 모듈은,
    N가지 방식을 각각 사용하여, 상기 제1 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제1 유형 연관 벡터를 획득하는 제1 계산 유닛;
    N가지 방식을 각각 사용하여, 상기 제2 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제2 유형 연관 벡터를 획득하는 제2 계산 유닛; 및,
    N가지 방식을 각각 사용하여, 상기 제3 특징 벡터와 상기 제4 특징 벡터 사이의 상관성을 계산하여, N개의 제3 유형 연관 벡터를 획득하는 제3 계산 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  13. 제12항에 있어서,
    상기 결정 모듈은,
    상기 N개의 제1 유형 연관 벡터를 융합하여, 제1 융합 벡터를 획득하는 제1 융합 유닛;
    상기 N개의 제2 유형 연관 벡터를 융합하여, 제2 융합 벡터를 획득하는 제2 융합 유닛;
    상기 N개의 제3 유형 연관 벡터를 융합하여, 제3 융합 벡터를 획득하는 제3 융합 유닛; 및,
    상기 제1 융합 벡터, 제2 융합 벡터 및 제3 융합 벡터에 대해 융합 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 제1 결정 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  14. 제12항에 있어서,
    상기 결정 모듈은,
    상기 N개의 제1 유형 연관 벡터, N개의 제2 유형 연관 벡터 및 N개의 제3 유형 연관 벡터를 융합하여, 제4 융합 벡터를 생성하는 제4 융합 유닛; 및,
    상기 제4 융합 벡터에 대해 계산하여, 상기 후보 문서에 기반하는 경우, 상기 의료 데이터의 신뢰도를 결정하는 제2 결정 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  15. 제9항에 있어서,
    상기 결정 모듈은,
    각 계산 방식에 대응되는 가중치를 결정하는 제3 결정 유닛; 및,
    각 계산 방식에 대응되는 가중치를 기반으로, 상기 N개의 연관 벡터에 대해 가중 융합하는 제5 융합 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  16. 제9항에 있어서,
    상기 제1 획득 모듈은,
    검증할 의료 데이터 및 이에 대응되는 설명 텍스트를 획득하는 제3 획득 유닛; 및,
    상기 설명 텍스트와 데이터베이스 중 각각의 문서의 상관성에 따라, 상기 데이터베이스로부터 상기 설명 텍스트와 연관된 후보 문서를 획득하는 제4 획득 유닛;을 포함하는,
    것을 특징으로 하는 의료 데이터 검증 장치.
  17. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및,
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리를 포함하고;
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 전자 기기.
  18. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  19. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 따른 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210128335A 2020-09-29 2021-09-28 의료 데이터 검증 방법, 장치 및 전자 기기 KR102636493B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011053052.7A CN112216359B (zh) 2020-09-29 2020-09-29 医疗数据校验方法、装置及电子设备
CN202011053052.7 2020-09-29

Publications (2)

Publication Number Publication Date
KR20210127120A true KR20210127120A (ko) 2021-10-21
KR102636493B1 KR102636493B1 (ko) 2024-02-14

Family

ID=74052646

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210128335A KR102636493B1 (ko) 2020-09-29 2021-09-28 의료 데이터 검증 방법, 장치 및 전자 기기

Country Status (5)

Country Link
US (1) US12008313B2 (ko)
EP (1) EP3910527A3 (ko)
JP (1) JP7285893B2 (ko)
KR (1) KR102636493B1 (ko)
CN (1) CN112216359B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备
CN113220895B (zh) * 2021-04-23 2024-02-02 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113380363B (zh) * 2021-06-24 2023-04-07 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及系统
CN113535974B (zh) * 2021-06-28 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 诊断推荐方法及相关装置、电子设备、存储介质
CN114880462A (zh) * 2022-02-25 2022-08-09 北京百度网讯科技有限公司 医用文档的分析方法、装置、设备以及存储介质
CN114818671B (zh) * 2022-03-10 2023-05-26 中国电子科技集团公司第十研究所 一种融合价值堆叠的异构知识动态表示学习方法
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签系统的中医开方反向校验方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102114267B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69916272D1 (de) * 1998-06-08 2004-05-13 Kcsl Inc Methode und verfahren um relevante dokumente in einer datenbank zu finden
JP2011129997A (ja) 2009-12-15 2011-06-30 Victor Co Of Japan Ltd ユーザ情報処理プログラム、再生プログラム、ユーザ情報処理装置、再生装置、ユーザ情報処理方法、及び、再生方法
US20120296637A1 (en) * 2011-05-20 2012-11-22 Smiley Edwin Lee Method and apparatus for calculating topical categorization of electronic documents in a collection
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和系统
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
US20170193197A1 (en) * 2015-12-30 2017-07-06 Dhristi Inc. System and method for automatic unstructured data analysis from medical records
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
JP2019049954A (ja) 2017-09-07 2019-03-28 延之 茂木 コンピュータ及び,一般電子回路の待機電流ゼロ回路
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
EP3696810B1 (en) * 2017-12-15 2024-06-12 Google LLC Training encoder model and/or using trained encoder model to determine responsive action(s) for natural language input
US11238306B2 (en) * 2018-09-27 2022-02-01 International Business Machines Corporation Generating vector representations of code capturing semantic similarity
US10970325B2 (en) * 2018-12-26 2021-04-06 Microsoft Technology Licensing, Llc Hybrid entity matching to drive program execution
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
CN110390003A (zh) * 2019-06-19 2019-10-29 北京百度网讯科技有限公司 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN111259112B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置
CN111259663B (zh) * 2020-01-14 2023-05-26 北京百度网讯科技有限公司 信息处理方法和装置
CN111626817B (zh) * 2020-05-10 2020-12-22 长沙居美网络科技有限公司 基于电子商务大数据的用户画像解析方法及人工智能平台
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102114267B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3910527A2 (en) 2021-11-17
EP3910527A3 (en) 2022-03-30
CN112216359B (zh) 2024-03-26
CN112216359A (zh) 2021-01-12
JP2021193617A (ja) 2021-12-23
JP7285893B2 (ja) 2023-06-02
US12008313B2 (en) 2024-06-11
KR102636493B1 (ko) 2024-02-14
US20220004706A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
KR102636493B1 (ko) 의료 데이터 검증 방법, 장치 및 전자 기기
US10963794B2 (en) Concept analysis operations utilizing accelerators
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
US11748232B2 (en) System for discovering semantic relationships in computer programs
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
JP2021114291A (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US20210056168A1 (en) Natural language processing using an ontology-based concept embedding model
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
AU2022223275B2 (en) Auditing citations in a textual document
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN112347769A (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN109408834A (zh) 辅助机器翻译方法、装置、设备及存储介质
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
CN110442877B (zh) 使用机器人规划作为平行语言语料库
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体
US20200104465A1 (en) Real-Time Prediction of Chemical Properties Through Combining Calculated, Structured and Unstructured Data at Large Scale
US11422798B2 (en) Context-based word embedding for programming artifacts
Wu et al. Multi-view inter-modality representation with progressive fusion for image-text matching
CN112269884A (zh) 信息抽取方法、装置、设备及存储介质
JP7242797B2 (ja) 語句処理方法、機器及び記憶媒体
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN115168599B (zh) 多三元组抽取方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant