RU2589727C2 - Предложение релевантных терминов во время ввода текста - Google Patents

Предложение релевантных терминов во время ввода текста Download PDF

Info

Publication number
RU2589727C2
RU2589727C2 RU2013125452/07A RU2013125452A RU2589727C2 RU 2589727 C2 RU2589727 C2 RU 2589727C2 RU 2013125452/07 A RU2013125452/07 A RU 2013125452/07A RU 2013125452 A RU2013125452 A RU 2013125452A RU 2589727 C2 RU2589727 C2 RU 2589727C2
Authority
RU
Russia
Prior art keywords
term
section
report
compatibility
sections
Prior art date
Application number
RU2013125452/07A
Other languages
English (en)
Other versions
RU2013125452A (ru
Inventor
Майкл Чун-Чиех ЛИ
Эрик КОЭН-СОЛАЛЬ
Юэчэнь ЦЯНЬ
Original Assignee
Конинклейке Филипс Электроникс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Электроникс Н.В. filed Critical Конинклейке Филипс Электроникс Н.В.
Publication of RU2013125452A publication Critical patent/RU2013125452A/ru
Application granted granted Critical
Publication of RU2589727C2 publication Critical patent/RU2589727C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области анализа вводимого текста, а именно к предложению терминов автозавершения, определяемых на основании анализа вводимого текста. Техническим результатом является предоставление для выбора наиболее релевантных терминов на основании определения статистических показателей сочетаемости. Для этого система содержит блок (2) ввода текста для предоставления возможности пользователю вводить текст в текущий отчет (1) и средство (11) выбора термина для выбора по меньшей мере одного часто сочетающегося термина (12), основываясь на извлеченном термине (8), секции (9) извлеченного термина, текущей секции (10) и статистическом показателе (7) сочетаемости. Индикатор (13) обеспечивает указание по меньшей мере одного часто сочетающегося термина (12) пользователю. Система для анализа отчетов, содержащая генератор (26) статистических показателей сочетаемости для генерации множества статистических показателей сочетаемости, статистический показатель сочетаемости указывает первый термин, первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции. 6 н. и 12 з.п. ф-лы, 4 ил., 1 табл.

Description

Область техники, к которой относится изобретение
Изобретение относится к предложению терминов автозавершения во время ввода текста отчета. Изобретение дополнительно относится к анализу множества отчетов.
Уровень техники
Клинические встречи, такие как обследования пациентов, часто документируются в форме текстовых отчетов. Эти отчеты могут быть продиктованы или набраны клиницистом, например врачом или медицинской сестрой. Примером такого отчета является отчет о радиологии, который обычно содержит некоторые элементы истории пациента (клиническое показание и/или повод для исследования), описание процедуры получения изображений, которая была выполнена, и исход радиологического изучения (полученные данные и впечатление).
Для ускорения ввода текста следующее слово или слова могут быть спрогнозированы с использованием автозавершения. Это может быть сделано посредством сопоставления шаблонов строк. Когда начало слова набрано, завершение этого слова может быть предложено. Для этого алгоритм автозавершения может найти одно или более слов в словаре, которое начинается с тех же символов, что и символы, которые были только что набраны. Например, ввод «прос» может быть сопоставлен со строками, такими как «простата» или «простагландин». Более сложные алгоритмы могут осуществлять сопоставление с фразами: например, «увеличенная прос» будет сопоставлена с «увеличенная простата», а не с «простагландин», поскольку первая фраза по статистике появляется значительно чаще. Эти сопоставления часто представляются пользователю в качестве меню возможных вариантов, так что корректный возможный вариант может быть быстро выбран.
Документ, озаглавленный «Semantic autocompletion» («Семантическое автозавершение»), E. Hyvönen и E. Mäkalä в трудах первой Азиатской Веб-Конференции по Семантике (Asia Semantic Web Conference, ASWC 2006), Beijing, Springer-Verlag, New York, 4-9 Августа, 2006, в дальнейшем Hyvönen et al., раскрывает автозавершение, основанное на сопоставлении вводимых строк со списком используемых слов в словаре. Документ дополнительно раскрывает завершение записываемого пользователем текста не только в схожие слова, но и в соответствующие онтологические понятия, текстовые данные которых могут не быть отнесены к вводу на буквенном уровне.
Сущность изобретения
Было бы полезным обладать улучшенными терминами автозавершения во время ввода текста отчета. Для лучшего решения данной задачи, первый аспект изобретения обеспечивает систему, содержащую
блок ввода текста для предоставления возможности пользователю вводить текст в текущий отчет;
анализатор секций для определения множества секций текущего отчета;
средство обнаружения текущей секции для обнаружения секции текущего отчета над которой работает пользователь, получающее таким образом текущую секцию;
средство извлечения терминов для извлечения термина, возникающего в текущем отчете, получающее таким образом извлеченный термин, и идентификации секции текущего отчета, в которой возникает извлеченный термин, получающее таким образом секцию извлеченного термина, при этом секция извлеченного термина и текущая секция являются разными секциями;
блок осуществления доступа к сочетаемости для осуществления доступа к множеству статистических показателей сочетаемости, статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат по меньшей мере один первый термин по меньшей мере в одной первой секции совместно со вторым термином во второй секции;
средство выбора терминов для выбора по меньшей мере одного часто сочетающегося термина, основываясь на извлеченном термине, секции извлеченного термина, текущей секции и по меньшей мере одном из статистических показателей сочетаемости; и
индикатор для обеспечения указания по меньшей мере одного часто сочетающегося термина пользователю.
Часто сочетающийся термин, который указывается пользователю, обладает относительно высокой вероятностью того, что он является словом, которое пользователь намеревается ввести в отчет, поскольку выбор термина основан на статистическом показателе сочетаемости, который учитывает секцию, в которой сочетающиеся термины обычно возникают. Статистический показатель сочетаемости может быть специфическим для заданного контекста предметной области (например, радиология, кардиология, неврология). В сравнении с традиционным сопоставлением строк, улучшение получают, учитывая термины, записанные в других секциях отчета, что предоставляет возможность предложения терминов автозавершения, которые являются более характерными для отчета, который вводится. Это улучшение основано на понимании того, что конкретные секции отчета могут включать в себя конкретные виды информации, которая может коррелировать по-разному с терминами в текущей секции. В качестве частного примера, термин, возникающий в секции истории пациента отчета о радиологии, может коррелировать по-разному с терминами в секции диагноза (диагностики), чем когда тот же самый термин возникает в секции полученных данных отчета.
В другом аспекте, изобретение обеспечивает систему для анализа множества отчетов, содержащую
анализатор секций для определения разделения отчетов на секции;
определитель общих секций для определения множества секций общих для множества отчетов;
средство извлечения терминов для извлечения множества терминов из общих секций отчетов и связывания каждого термина с секцией и отчетом, где он возникает;
генератор статистических показателей сочетаемости для генерирования множества статистических показателей сочетаемости, статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат по меньшей мере один первый термин по меньшей мере в одной первой секции совместно со вторым термином во второй секции, при этом по меньшей мере одна первая секция отличается от второй секции.
Эта система генерирует статистические показатели сочетаемости, которые могут быть использованы предлагаемой системой автозавершения. Статистические показатели сочетаемости предоставляют возможность генерирования более полезных предложений автозавершения, поскольку статистические показатели сочетаемости обеспечивают информацию о сочетающихся терминах, которые сочетаются в конкретных, различных секциях отчетов. Система для анализа множества отчетов может быть объединена с системой для предложения терминов автозавершения; в качестве альтернативы, системы могут быть реализованы в различных окружениях. Когда статистический показатель сочетаемости указывает множество первых терминов и множество первых секций, по меньшей мере одна первая секция из множества первых секций отличается от второй секции.
Отчет может содержать документ, при этом секция содержит заголовок секции и основную часть секции. Заголовок секции позволяет обнаруживать существование секции, и это помогает предлагаемой системе извлекать термины и связывать извлеченные термины с надлежащей секцией.
В качестве альтернативы или в дополнение, отчет может содержать множество файлов, при этом различные файлы содержат различные секции отчета. Это облегчает вовлечение информации более ранних периодов или созданной одним или более разными клиницистами в процесс автозавершения. Таким образом, пользователю могут быть обеспечены более релевантные термины автозавершения.
Отчет может содержать цифровую форму, при этом поля должны быть заполнены пользователем. Информация, которую используют для заполнения в некоторых полях, может поступать из различных систем и может быть сохранена в качестве записей в одной или множестве баз данных.
Термин может содержать одно слово или фразу, составленную из множества слов. Например, извлеченный термин и/или первый термин может содержать выражение, содержащее множество слов. Это предоставляет улучшенные предложения, поскольку комбинация из множества слов для извлеченного термина и/или первого термина может иметь результатом более специфические статистические показатели сочетаемости.
Система может содержать процессор естественного языка для связывания извлеченного термина и/или первого термина с онтологическим понятием в онтологии, и при этом статистический показатель сочетаемости относится к вероятности сочетаемости онтологического понятия со вторым термином. Это улучшает точность статистических показателей сочетаемости и/или предлагаемых терминов.
Средство выбора терминов может быть функционально соединено с блоком ввода текста и скомпоновано для приема части термина, который вводится пользователем, и выполнено с возможностью выбора часто сочетающегося термина, основываясь на принятой части термина. Таким образом, предлагаемый термин является релевантным для слова, которое было частично введено пользователем.
Средство выбора терминов может быть выполнено с возможностью выбора часто сочетающегося термина, начало которого совпадает с принятой частью термина. Это обеспечивает процесс естественного автозавершения, при котором пользователь вводит начало термина и ему обеспечивают завершенные термины, совпадающие с введенным началом.
Отчеты могут включать в себя медицинские отчеты о пациенте, и секции могут включать в себя секцию истории пациента, секцию клинических данных и/или секцию диагноза. Это описывает типичный сценарий медицинского отчета.
В другом аспекте, изобретение обеспечивает рабочую станцию, содержащую одну или более из предлагаемых систем.
В дополнительном другом аспекте изобретение обеспечивает способ предложения терминов автозавершения во время ввода текста отчета, содержащий этапы, на которых
предоставляют возможность пользователю вводить текст в текущий отчет;
определяют множество секций текущего отчета;
обнаруживают секцию текущего отчета, над которой работает пользователь, получая таким образом текущую секцию;
извлекают термин, возникающий в текущем отчете, получая таким образом извлеченный термин, и идентифицируют секцию текущего отчета, в которой возникает извлеченный термин, получая таким образом секцию извлеченного термина, при этом секция извлеченного термина и текущая секция являются разными секциями;
осуществляют доступ ко множеству статистических показателей сочетаемости, статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции;
выбирают по меньшей мере один часто сочетающийся термин, основываясь на извлеченном термине, секции извлеченного термина, текущей секции и по меньшей мере одном из статистических показателей сочетаемости; и
обеспечивают указание по меньшей мере одного часто сочетающегося термина пользователю.
В другом аспекте изобретение обеспечивает способ анализа множества отчетов, содержащий этапы, на которых
определяют разделение отчетов на секции;
определяют множество секций, общих для множества отчетов;
извлекают множество терминов из общих секций отчетов и связывают каждый термин с секцией и отчетом, где он возникает; и
генерируют множество статистических показателей сочетаемости, статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции, при этом по меньшей мере одна первая секция отличается от второй секции.
В другом аспекте изобретение обеспечивает компьютерный программный продукт, содержащий инструкции для предписания процессорной системе выполнять один или более из способов, предлагаемых в данном документе.
Специалисту в данной области техники следует принять во внимание, что два или более из вышеуказанных вариантов осуществления, реализаций и/или аспектов изобретения могут быть объединены любым образом, считающимся полезным.
Модификации и изменения устройства получения изображений, рабочей станции, системы и/или компьютерного программного продукта, которые соответствуют описанным модификациям и изменениям системы, могут быть осуществлены специалистом в данной области техники на базе настоящего описания.
Краткое описание чертежей
Эти и другие аспекты изобретения очевидны из и будут разъяснены со ссылкой на варианты осуществления, описанные ниже по тексту. На чертежах
Фиг.1 представляет собой блок-схему системы для предложения терминов автозавершения во время ввода текста;
Фиг.2 представляет собой блок-схему системы для анализа отчетов;
Фиг.3 представляет собой блок-схему последовательности операций способа анализа отчетов; и
Фиг.4 представляет собой блок-схему последовательности операций способа предложения терминов автозавершения во время ввода текста.
Подробное описание вариантов осуществления
В нижеследующем варианты осуществления будут описаны посредством примеров.
Например, рассмотрим клинический документ, который набран следующим образом: «32 года, мужчина с присутствующим тиннитусом в левом ухе. МДКТ показала образование, негативно влияющее на левый слуховой канал». Во время, когда автор набрал «слу» («au») в «слуховой канал» («auditory canal»), сопоставляющее строки автозавершение может представить «слу» («au»), «слушатель» («auditor»), «слуховой» («auditory»), «слушание» («audition»), «слуховой» («auditory»), «слуховой канал» («auditory canal»), «аутосомный» («autosomal») и т.д. Используя методологию, описанную в данном документе, «слуховой канал» будет выдвинут в начало списка, поскольку он имеет относительно высокую частоту сочетаемости с «тиннитусом».
В качестве второго примера рассмотрим радиологический отчет о рассеянном склерозе, содержащий предложение: «Аномальная интенсивность не наблюдается в белом веществе». Известные в данное время способы могут сопоставить букву «б» в «белом веществе» со всеми словами, начинающимися с буквы «б» или даже всеми общими радиологическими терминами, начинающимися с буквы «б». Однако, принимая во внимание предшествующий контекст, список может быть сужен и сохранен таким образом, что наиболее релевантные термины перемещаются к началу.
Подсистема может быть выполнена с возможностью анализа предыдущих отчетов и клинических документов для того, чтобы «обучить» и сохранить корреляции между различными терминами. Другая подсистема может быть выполнена с возможностью анализа вводимого в настоящий момент отчета, так что новые термины могут быть предложены, основываясь на (a) уже введенном текущем содержимом отчета и (b) ранее обученных корреляциях между терминами. Кроме того, подсистема может быть выполнена с возможностью отображения предложенных терминов пользователю.
Фиг.1 иллюстрирует систему для предложения терминов автозавершения. Эти термины автозавершения могут быть предложены во время ввода текста отчета. Система может быть реализована, по меньшей мере частично, в компьютерной системе. Такая система может содержать рабочую станцию. Часть системы может быть реализована на серверной системе, к которой осуществляется доступ через клиентскую систему, при этом клиентская система может содержать рабочую станцию. Система может содержать устройство отображения, устройство ввода текста, такое как клавиатура и/или ввод диктовкой, включающий в себя программное обеспечение распознавания речи в реальном времени, мышку для управления системой, порт связи для осуществления связи с сервером и/или для получения отчетов, статистических данных и/или для передачи завершенных отчетов получателю. Система может содержать средство хранения для хранения отчетов и/или статистических данных и других данных.
Система может содержать блок 2 ввода текста для предоставления возможности пользователю вводить текст в текущий отчет 1. Блок 2 ввода текста, например может содержать текстовый редактор или текстовый процессор для предоставления возможности пользователю создавать текстовый документ, возможно оставляя на усмотрение пользователя возможность форматирования отчета и обеспечения заголовков для секций в соответствии с присущим пользователю пониманием. Также возможно, чтобы блок 2 ввода текста показывал множество полей ввода текста, в которых пользователь может набирать надлежащий текст, при этом поля ввода текста могут соответствовать общим секциям отчета. Когда отчет завершен, блок 2 ввода текста может осуществлять слияние полей в один документ или сохранять поля в записи данных, например в электронной записи данных пациента. Блок 2 ввода текста может быть скомпонован для приема вывода подсистемы распознавания речи, предоставления возможности пользователю вводить отчет буквально произнося слова текста.
Система может содержать анализатор 3 секций для определения множества секций текущего отчета. Анализатор 3 секций может содержать средство анализа текста для определения секций в отчете. Анализатор 3 секций может делать это посредством обнаружения заголовков секций и соответствующих основных частей секций. В качестве альтернативы, анализатор 3 секций может использовать обработку естественного языка для распознавания различных секций посредством анализа содержимого текста, такого как клиническая история, исследование, полученные данные, основываясь на предметах обсуждения, обычно появляющихся в таких секциях. Когда блок 2 ввода текста использует отдельные поля ввода для секций, анализатор 3 секций может по меньшей мере до некоторой степени быть интегрирован в блок ввода текста, поскольку секции определяются полями ввода.
Система может содержать средство 4 обнаружения для обнаружения секции текущего отчета, над которой работает пользователь. Эту секцию называют в данном документе как текущая секция 10. Для этого средство 4 обнаружения текущей секции может быть функционально соединено с блоком 2 ввода текста и анализатором 3 секций. Средство 4 обнаружения текущей секции может использовать, например позицию курсора или местоположение, в котором было добавлено последнее слово или символ, в качестве текущей секции 10.
Система может содержать средство 5 извлечения терминов для извлечения термина, возникающего в текущем отчете, получающее таким образом извлеченный термин 8. Средство 5 извлечения терминов использует обнаруженные секции для определения того, в какой секции текущего отчета возникает извлеченный термин, получая таким образом секцию 9 извлеченного термина. Извлеченный термин 8 и секция 9 извлеченного термина могут быть рассмотрены как извлеченная пара 15. Средство 5 извлечения терминов может обрабатывать весь или по меньшей мере часть текущего отчета 1 для извлечения слов, возникающих в нем и связывания этих слов с соответствующими секциями. Один или более из извлеченных терминов могут возникнуть в секции 9 извлеченного термина, которая отличается от текущей секции 10.
Система может содержать блок 6 осуществления доступа к сочетаемости для осуществления доступа ко множеству статистических показателей 7 сочетаемости. Для этой цели блок 6 осуществления доступа к сочетаемости может обеспечивать интерфейс, например для базы данных или области хранения. Статистические показатели сочетаемости обеспечивают информацию о терминах, которые часто сочетаются в отчетах в конкретной области знаний. Таким образом, извлеченный термин 8 и секция 9 извлеченного термина могут быть сопоставлены с терминами и секциями, для которых имеются статистические показатели сочетаемости, и эти статистические показатели сочетаемости могут обеспечивать информацию о возможных словах, которые пользователь намеревается ввести. Статистический показатель сочетаемости может указывать первый термин, первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции. Для некоторых статистических показателей сочетаемости, первая секция может быть отличной от второй секции, тогда как для некоторых других статистических показателей сочетаемости, первая секция может быть такой же, как вторая секция. Статистический показатель сочетаемости также может относится к более чем двум словам, распространенным по одной, двум или более секциям. Например, статистический показатель сочетаемости может указывать множество пар, где каждая пара содержит термин и соответствующую секцию, в которой возникает термин, частоту сочетаемости терминов и секций, которая указывает, как часто отчет содержит все термины в секциях, как указано множеством пар.
Система может содержать средство 11 выбора терминов для выбора по меньшей мере одного часто сочетающегося термина 12. Для этой цели средство 11 выбора терминов может принимать информацию об извлеченных терминах 8, секциях 9 извлеченных терминов, текущей секции 10 и по меньшей мере одном из статистических показателей 7 сочетаемости. Средство 11 выбора терминов может быть специально выполнено с возможностью принимать во внимание один или более извлеченных терминов 8, извлеченных из секции 9 извлеченного термина отчета, которая отличается от текущей секции 10. Например, средство 11 выбора терминов может быть скомпоновано для приема от блока 6 осуществления доступа к сочетаемости всех статистических показателей сочетаемости для извлеченных терминов 8, извлеченных средством 5 извлечения терминов. Также, средство 11 выбора терминов может быть выполнено с возможностью приема от блока 6 осуществления доступа к сочетаемости всех статистических показателей сочетаемости, указывающих множество первых терминов и секций первых терминов, при этом каждое из первых терминов и секций первых терминов из этих принятых статистических показателей сочетаемости согласуется с извлеченными парами 15 извлеченных терминов 8 и секций 9 извлеченных терминов. После этого, средство 11 выбора терминов может сортировать принятые статистические показатели сочетаемости по частоте сочетаемости, так что наиболее часто сочетающиеся термины находятся в начале списка. Список может быть ограничен, чтобы содержать только наиболее часто сочетающиеся термины. Принятые статистические показатели сочетаемости также могут быть отсортированы по числу первых терминов, чтобы дать предпочтение более конкретным, предлагаемым терминам, которые часто сочетаются с относительно большим числом извлеченных терминов, появляющихся в текущем отчете. Список может быть показан пользователю. Для этой цели система может содержать индикатор 13 для обеспечения указания по меньшей мере одного часто сочетающегося термина 12 пользователю. Пользователь может выбрать термин из списка, используя элемент пользовательского интерфейса, и блок 2 ввода текста может быть выполнен с возможностью вставки выбранного термина в текущую секцию. Когда отчет завершен, система может быть сконфигурирована или пользователю может быть предоставлена возможность сохранять или передавать отчет при необходимости.
Фиг.2 показывает блок-схему системы для анализа отчетов. Система может быть реализована на аналогичном виде аппаратного обеспечения, что и система для предложения терминов автозавершения. Множество статистических показателей 7 сочетаемости указано тем же самым ссылочным номером, что и на Фиг.1, поскольку оно относится к той же самой или аналогичной структуре данных. Система для анализа отчетов имеет доступ к множеству или совокупности отчетов 21. Эта совокупность отчетов 21 может быть организована в базе данных или как простая совокупность документов, хранимых в файловой структуре.
Система для анализа отчетов может содержать анализатор 22 секций для определения разделения множества отчетов 21 на секции. Для этой цели, анализатор 22 секций может быть выполнен с возможностью обработки отчетов один за другим или параллельно и обнаружения заголовков секций и основных частей секций каждого обрабатываемого отчета. Другие пути обнаружения секций описаны выше по тексту относительно анализатора 3 секций системы для предложения терминов автозавершения.
Система для анализа отчетов может содержать определитель 23 общих секций для определения множества секций, общих для множества отчетов 21. Таким образом, получают множество общих секций. Определитель 23 общих секций может быть выполнен с возможностью сравнения заголовков секций из секций различных отчетов, и когда достаточно большое число отчетов имеют один и тот же заголовок секции или аналогичный заголовок секции, секция может быть обозначена идентификатором секции и помечена как общая секция.
Система для анализа отчетов может содержать средство 24 извлечения терминов для извлечения множества терминов 25 из общих секций отчетов и связывания каждого термина с секцией и отчетом, где он возникает. Средство 24 извлечения терминов может быть аналогично средству 5 извлечения терминов системы для предложения терминов автозавершения, однако средство 24 извлечения терминов выполнено с возможностью обработки некоторого числа завершенных отчетов, а не отчетов, которые находятся в процессе их создания.
Система для анализа отчетов может содержать генератор 26 статистических показателей сочетаемости для генерирования множества статистических показателей 7 сочетаемости. Такой статистический показатель сочетаемости может указывать первый термин, первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции. Генератор 26 статистических показателей сочетаемости может объединять термины, извлекаемые из различных секций, для получения статистического показателя сочетаемости, который относится к сочетаемости терминов в различных секциях, и таким образом первая секция статистического показателя сочетаемости может быть отличной от второй секции. Множество статистических показателей сочетаемости могут дополнительно содержать статистические показатели сочетаемости, которые относятся к сочетаемости терминов в одной и той же секции, в таком случае первая секция и вторая секция являются идентичными. Сгенерированное множество статистических показателей сочетаемости может быть использовано системой для предложения терминов автозавершения, как описано относительно Фиг.1.
Система для анализа отчетов и система для предложения терминов автозавершения могут быть интегрированы в единую систему, которая способна генерировать статистические показатели сочетаемости, основываясь на множестве отчетов, и предлагать термины автозавершения во время создания нового отчета. Однако, также возможно, что две системы реализованы как отдельные субъекты, так что разработчик продукции или технический специалист могут использовать систему для анализа отчетов для подготовки набора статистических показателей 7 сочетаемости, который может быть использован большим числом пользователей в качестве ввода в систему для предложения терминов автозавершения. Нижеследующие признаки могут быть применены и к системе автозавершения и к системе анализа отчетов.
Отчеты могут быть обеспечены во многих различных форматах, по существу не влияя на работу систем. Например, отчет может иметь формат документа, такой как документ обычного текста или документ форматируемого текста. Отчет также может иметь формат документа XML. Коды XML таких документов XML могут быть использованы для кодирования ряда сущностей; например, коды XML могут быть использованы для указания секций. Секция документа может быть создана из заголовка секции и основной части секции. Например, за пустой строкой идет строка, которая является заголовком секции, и за заголовком секции идет пустая строка и основная часть секции. В документах форматируемого текста или документах XML местоположение заголовка и/или секции может быть указано посредством метаданных. Анализатор 3, 22 секций может содержать средство синтаксического анализа (парсер) для получения любой такой информации о секциях.
Отчет 1, 21 может содержать множество файлов. Например, различные файлы содержат различные секции отчета. Это облегчает идентификацию различных секций.
Извлеченный термин 8, извлеченный средством 5 извлечения терминов и/или первый термин используемый генератором 26 сочетаемости или в статистическом показателе сочетаемости может содержать множество слов, например выражение или фразу, содержащую последовательность слов. Это выражение может, например содержать прилагательное, за которым следует существительное. Также возможно, чтобы множество слов не представляли собой фиксированное последовательное выражение, а множество слов, которые могут возникнуть где-нибудь в конкретной секции. Когда каждое из этого множества слов возникает в этой секции, статистический показатель сочетаемости указывает частоту сочетаемости со вторым термином. Однако, также возможно конфигурировать систему так, что каждый статистический показатель сочетаемости относится только к одному первому термину (который может быть выражением из последовательности слов), и что для различных слов, возникающих в объеме секции, генерируются независимые статистические показатели сочетаемости. Средство выбора терминов может объединять многокомпонентную информацию от релевантных статистических показателей сочетаемости для улучшения выбора часто сочетающегося термина 12.
Система может содержать процессор 14, 27 естественного языка. Процессор 14, 27 естественного языка может быть выполнен с возможностью связывания извлеченного термина 8 и/или первого термина с онтологическим понятием в онтологии. Это может быть сделано с использованием методологий, по сути известных в технике обработки естественного языка. Может быть использована онтология, которая является релевантной для области знаний множества отчетов 21. Соответственно статистический показатель сочетаемости может относиться к вероятности сочетаемости онтологического понятия со вторым термином. Второй термин также может соответствовать онтологическому понятию.
Средство 11 выбора терминов может быть функционально соединено с блоком 2 ввода текста и выполнено с возможностью приема части термина, который вводится пользователем, и выполнено с возможностью выбора часто сочетающегося термина 12, основываясь на принятой части термина. Таким образом, предложенные термины могут быть более релевантными, так как они соответствуют части термина, которую ввел пользователь. Например, средство 11 выбора терминов скомпоновано для выбора по меньшей мере одного часто сочетающегося термина 12, начало которого совпадает с принятой частью термина. Однако это не является ограничением. Средство 11 выбора терминов может выбирать любой термин, имеющий набранную часть в качестве подстроки термина.
Отчеты 1, 21 могут включать в себя медицинские отчеты о пациенте, и секции включают в себя секцию истории пациента, секцию клинических данных и/или секцию диагноза. Однако система также может быть использована для других областей знаний.
Фиг.3 показывает блок-схему последовательности операций способа анализа множества отчетов. Способ может содержать этап 31 определения разделения отчетов на секции. Способ может содержать этап 32 определения множества секций, общих для множества отчетов. Способ может содержать этап 33 извлечения множества терминов из общих секций отчетов и связывания каждого термина с секцией и отчетом, где он возникает. Способ может содержать этап 34 генерирования множества статистических показателей сочетаемости, где статистический показатель сочетаемости указывает первый термин, первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции. Способ может содержать дополнительные этапы или быть подвержен модификациям, что будет очевидно для специалиста ввиду настоящего описания, в том числе описания систем.
Фиг.4 показывает блок-схему последовательности операций способа предложения терминов автозавершения во время ввода текста отчета. Способ может содержать этап 41 предоставления возможности пользователю вводить текст в текущий отчет. Способ может содержать этап 42 определения множества секций текущего отчета. Способ может содержать этап 43 обнаружения секции текущего отчета, над которой работает пользователь, получая таким образом текущую секцию. Способ может содержать этап 44 извлечения термина, возникающего в текущем отчете, получая таким образом извлеченный термин, и идентификации секции текущего отчета, в которой возникает извлеченный термин, получая таким образом секцию извлеченного термина, при этом секция извлеченного термина и текущая секция являются разными секциями. Способ может содержать этап 45 осуществления доступа к множеству статистических показателей сочетаемости, где статистический показатель сочетаемости указывает первый термин, первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат первый термин в первой секции совместно со вторым термином во второй секции. Способ может содержать этап 46 выбора по меньшей мере одного часто сочетающегося термина, основываясь на извлеченном термине, секции извлеченного термина, текущей секции и по меньшей мере одном из статистических показателей сочетаемости. Способ может содержать этап 47 обеспечения указания по меньшей мере одного часто сочетающегося термина пользователю. Способ может содержать дополнительные этапы или быть подвержен модификациям, что будет очевидно специалисту в виду настоящего описания, в том числе описания систем.
Способы и системы, описанные в данном документе, также могут быть реализованы в программном обеспечении в качестве компьютерного программного продукта. На практике, способы и системы могут быть реализованы с использованием одной или более компьютерных систем. Одна система может анализировать отчеты, хранящиеся, например, в больничной радиологической информационной системе (RIS). Извлеченные корреляции между терминами сохраняются для последующего использования. С набором или диктовкой нового отчета, отчет непрерывно анализируется компьютерной системой, в сочетании с извлеченными корреляциями. Оперативный анализ используется для предложения потенциально надлежащих терминов, которые затем отображаются на компьютерном экране, основываясь на комбинированном анализе предшествующих отчетов и текущих отчетов.
Обработка естественного языка (NLP), по сути известная в технике, может быть использована для извлечения релевантных терминов или понятий из свободно-текстовых (текст на естественном языке) клинических документов и идентификации их содержимого в документе. Они могут быть сохранены в базе данных или другом структурированном формате (например, XML). В качестве примера рассмотрим секцию отчета:
«HISTORY: 45 years old female presenting with tinnitus in left-ear and tingling on hands» («ИСТОРИЯ: 45 лет, женщина, с присутствующим тиннитусом в левом ухе и покалыванием в руках»).
Способы NLP могут быть использованы для преобразования этого текста в формат, описывающий содержимое (демографические данные, полученные данные, проблемы), подробную информацию (локализации на теле, пол, возраст), алфавитно-цифровые коды для однозначной идентификации понятий (например, коды UMLS) и секцию отчета (например, «past history» (анамнез)). Например, указанная выше по тексту секция отчета может быть преобразована в следующее:
finding:demographics
age>>[45,[idref,4],year,[idref6]]
sectname>> report past history item
sex>>female
problem:tinnitus
bodyloc>>ear
region>>left
code>>UMLS:C0521421_Entire ear
sectname>> report past history item
code>>UMLS:C0040264_Tinnitus
problem:tingling
bodyloc>>hand
code>> UMLS:C0018563_Hand
certainty>> high certainty
sectname>> report past history item
code>> UMLS:C0423572_Pins and needles
Этот процесс может быть выполнен над большим набором отчетов. Этот этап может быть выполнен в отношении всех текстовых данных, содержащихся в радиологической информационной системе (RIS), лабораторной информационной системе (LIS) или больничной информационной системе (HIS). Возможно ограничивать анализируемый набор отчетов теми отчетами, которые созданы конкретным набором авторов, например медицинскими специалистами. Этот набор авторов может представлять собой одного индивидуума, таким образом осуществляя персонализацию системы предложения. Набор авторов также может быть выбран для того, чтобы получить предложения, которые являются применимыми для релевантной области знаний. Для этой цели, набор авторов может содержать набор главных врачей, отделение в больнице, секцию в отделении или в многочисленных больницах.
Элементы структурированных данных, извлекаемые из каждого отчета, могут быть сохранены в базе данных. В простом варианте осуществления база данных содержит список идентификаторов отчета и терминов. Более того, секция, в которой был найден термин, может быть сохранена в базе данных. В примере, мы можем иметь следующую упрощенную базу данных, приведенную в таблице:
ID отчета (reportID) термин (term) секция (section)
1 тиннитус («tinnitus») история («history»)
1 покалывание
(«tingling»)
история («history»)
1 слуховой канал
(«auditory canal»)
полученные данные
(«findings»)
2 множественный склероз
(«multiple sclerosis»)
история («history»)
2 белое вещество
(«white matter»)
полученные данные
(«findings»)
3 тиннитус («tinnitus») история («history»)
3 глиобластома
(«glioblastoma»)
полученные данные
(«findings»)
3 слуховой канал
(«auditory canal»)
полученные данные («findings»)
Для улучшения системы большие базы данных могут быть созданы на основе большего количества различных отчетов и вовлечения большего количества терминов. Однако, используя вышеупомянутую базу данных для объяснения системы, может быть логически выведено, что существует корреляция между «тиннитус» и «слуховой канал». Если разрабатывается достаточно большая база данных, еще большее количество соотношений может быть логически выведено.
Корреляция между терминами может быть однозначно сохранена. Этот список корреляций может быть отфильтрован и сохранен на основе количественных мер: числа отчетов с сочетаемостью, статистического p-значения, например вычисленного посредством хи-квадратного (chi-squared) теста или точного критерия Фишера (Fisher), или байесовской вероятности P (термин X | термин A, термин B,…, термин N) (которая должна быть интерпретирована как вероятность того, что конкретный термин X появляется при условии, что мы уже наблюдали термин A, B,…, N) в (конкретных секциях) отчете). Для сравнения следует отметить, что публикация «A hybrid approach to improving automatic speech recognition via NPL» («Гибридный метод для улучшения автоматического распознавания голоса посредством NLP»), K. Voll в: Advances in artificial intelligence: Proceedings of 20th Conference of the Canadian Society for Comptutational Studies of Intelligence («Достижения в Области Искусственного Интеллекта: Труды 20-ой Конференции Канадского Общества по вопросам Вычислительных Исследований Интеллекта»), Canadian AI 2007, Монреаль, Канада, 2007 раскрывает способ обнаружения ошибки пост-автоматического распознавания речи. Документ раскрывает эвристику, основанную на связях сочетаемости в контекстном окне, которое задано как n слов, возникающих с любой стороны слова. Эти связи сочетаемости могут быть условными вероятностями, использующими теорему Байеса.
С вводом нового отчета (обычно посредством набора или диктовки) система, описываемая в этом описании, может обрабатывать его. Аналогичные или схожие способы обработки естественного языка могут быть использованы, как описано выше по тексту. Еще раз, термины и понятия в отчете могут быть извлечены и структурированы. Этот анализ может быть выполнен непрерывно по мере диктовки новых слов или набора новых букв. В набираемых отчетах с вводом каждой буквы, этап предсказания, описанный в данном документе, может быть активирован для предложения терминов, которые могут завершить вводимое слово или фразу. В случае с диктовкой слово может быть неоднозначно введено вследствие ограничений известных алгоритмов распознавания речи. Например, известные способы распознавания речи могут не быть способны разделять с достоверностью произносимые слова «креатинин» и «креатин». В этих случаях, этап предсказания, описанный в этом документе, может быть активирован.
Система может осуществлять поиск соответствующих слов в списке медицинских терминов. Таким образом, если введена буква «с», идентифицируются все медицинские термины, начинающиеся с буквы «с». После этого, извлеченная информация из текущего отчета и сохраненные анализы из исторических (прошлых) отчетов могут быть объединены для определения приоритетов некоторых терминов. Например, может быть осуществлен поиск в базе данных, отыскивающий все прошлые отчеты, которые содержат одни и те же термины или онтологические понятия как таковые из текущего отчета. Таким образом, термины, часто сочетающиеся с теми терминами, могут быть найдены, и для них могут быть определены приоритеты на основе частоты сочетаемости.
В качестве примера рассмотрим набор нового отчета, при этом секция истории содержит термин «тиннитус». В этом примере, в настоящий момент набираемое слово начинается с буквы «c». Используя известные способы, возможный список слов может быть ограничен теми словами, которые начинаются c «c». Затем, при сравнении с небольшой примерной базой данных по Этапу 2, выясняется, что «тиннитус» часто сочетается с термином «слуховой канал». Этот термин затем может быть продвинут к началу списка возможных вариантов и указан пользователю в качестве предложения для автозавершения набираемого термина.
Сравнение может быть выполнено в контексте секций отчета. Когда обрабатывают исторические данные для нахождения сочетаемостей, обработка может учитывать секции, в которых появляются термины. Например, если текущий отчет показывает «глиобластома» в секции истории, то система может быть выполнена с возможностью только учета более ранних отчетов, в которых «глиобластома» находится в секции истории. Аналогичным образом, в зависимости от того, в какой секции набирается термин, предлагаются только термины, найденные в той же самой секции в предшествующих отчетах.
Результаты могут быть показаны как экранное меню, перечисляющее возможные совпадения в порядке очередности. Приоритет может быть основан на частоте сочетаемости предложенного слова, принимая во внимание извлеченные термины и понятия и их секции. Предложенные термины могут быть представлены отдельно для различных типов терминов, например термины, относящиеся к заболеваниям, симптомам, полученным данным и процедурам.
Следует отметить, что изобретение также применяет компьютерные программы, в частности компьютерные программы в или на носителе, приспособленные для осуществления изобретения на практике. Программа может быть в форме исходного кода, объектного кода, кода, представляющего промежуточный исходный и объектный код, например в частично компилированной форме, или в любой другой форме, подходящей для использования при реализации способа, согласно изобретению. Следует отметить, что такая программа может иметь различные архитектурные разработки. Например, программный код, реализующий функциональность способа или системы согласно изобретению, может быть подразделен на одну или более подпрограмм. Многие другие методы распределения функциональности по этим подпрограммам станут очевидны для специалиста в данной области техники. Подпрограммы могут быть сохранены вместе в одном исполняемом файле для формирования независимой программы. Такой исполняемый файл может содержать исполняемые компьютером инструкции, например, инструкции обработчика и/или инструкции интерпретатора (например, инструкции интерпретатора Java). В качестве альтернативы одна или более или все подпрограммы могут быть сохранены по меньшей мере в одном файле внешней библиотеки и связаны с основной программой либо статично, либо динамично, например во время прогона программы. Основная программа содержит по меньшей мере один вызов по меньшей мере одной из подпрограмм. Подпрограммы также могут содержать вызовы функции друг к другу. Вариант осуществления, относящийся к компьютерному программному продукту, содержит исполняемые компьютером инструкции, соответствующие каждому этапу обработки по меньшей мере одного из предлагаемых в данном документе способов. Эти инструкции могут быть подразделены на подпрограммы и/или сохранены в одном или более файлов, которые могут быть связаны статично или динамично. Другой вариант осуществления, относящийся к компьютерному программному продукту, содержит исполняемые компьютером инструкции для каждого средства по меньшей мере одной из предлагаемых в данном документе систем и/или продуктов. Эти инструкции могут быть подразделены на подпрограммы и/или сохранены в одном или более файлах, которые могут быть связаны статично или динамично.
Носитель компьютерной программы может быть любым объектом или устройством способным переносить программу. Например, носитель может включать в себя запоминающий носитель, такой как ROM, например, CD-ROM или полупроводниковое ROM, или магнитный носитель записи, например флоппи диск или жесткий диск. Кроме того, носитель может быть передаваемым носителем, таким как электрический или оптический сигнал, который может быть перенесен по электрическому или оптическому кабелю или посредством радиосвязи или другого средства. Когда программа воплощена в таком сигнале, носитель может быть составлен такими кабелем или другими устройством или средствами. В качестве альтернативы носитель может быть интегральной схемой, в которую встроена программа, причем интегральная схема выполнена с возможностью осуществления или использования при осуществлении соответствующего способа.
Следует отметить, что вышеупомянутые варианты осуществления иллюстрируют не ограничения изобретения, и специалисты в данной области техники смогут сконструировать много альтернативных вариантов осуществления, не отходя от объема приложенной формулы изобретения. В формуле изобретения любые ссылочные обозначения, помещенные между круглыми скобками, не должны быть истолкованы как ограничивающие формулу изобретения. Использование слова «содержит» и его объединений не исключает наличия элементов или этапов, отличных от тех, что указаны в формуле изобретения. Указание элемента в единственном числе не исключает множества таких элементов. Изобретение может быть реализовано посредством аппаратного обеспечения, содержащего несколько различных элементов, и посредством подходящим образом запрограммированного компьютера. В пункте формулы изобретения на устройство, перечисляющем несколько средств, несколько из этих средств могут быть воплощены одним и аналогичным элементом аппаратного обеспечения. Лишь факт того, что некоторые меры указаны во взаимно различных зависимых пунктах формулы изобретения, не указывает, что эти меры не могут быть использованы для получения преимущества.

Claims (18)

1. Система для предложения терминов автозавершения во время ввода текста отчета, содержащая
блок (2) ввода текста для предоставления возможности пользователю вводить текст в текущий отчет (1);
анализатор (3) секций для определения множества секций текущего отчета;
средство (4) обнаружения текущей секции для обнаружения секции текущего отчета, над которой работает пользователь, получающее таким образом текущую секцию (10);
средство (5) извлечения терминов для извлечения термина, возникающего в текущем отчете, получающее таким образом извлеченный термин (8), и идентификации секции текущего отчета, в которой возникает извлеченный термин, получающее таким образом секцию (9) извлеченного термина, при этом секция (9) извлеченного термина и текущая секция (10) являются разными секциями;
блок (6) осуществления доступа к сочетаемости для осуществления доступа ко множеству статистических показателей (7) сочетаемости, при этом статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты в области знаний содержат по меньшей мере один первый термин в по меньшей мере одной первой секции совместно со вторым термином во второй секции;
средство (11) выбора терминов для выбора по меньшей мере одного часто сочетающегося термина (12), основываясь на извлеченном термине (8), секции (9) извлеченного термина, текущей секции (10) и по меньшей мере одном из статистических показателей (7) сочетаемости, при этом средство (11) выбора терминов выбирает по меньшей мере один часто сочетающийся термин (12) для части термина, вводимого в текущей секции, основываясь на по меньшей мере одном из статистических показателей (7) сочетаемости, связанном с извлеченным термином (8) в секции (9) извлеченного термина;
индикатор (13) для обеспечения указания упомянутого по меньшей мере одного часто сочетающегося термина (12) пользователю.
2. Система по п. 1, в которой отчет содержит документ, и при этом секция содержит заголовок секции и основную часть секции.
3. Система по п. 1, в которой отчет (1, 21) содержит множество файлов, и при этом различные файлы содержат различные секции отчета.
4. Система по п. 1, в которой извлеченный термин (8) и/или первый термин содержат выражение, содержащее множество слов.
5. Система по п. 1, содержащая процессор (14) естественного языка для связывания извлеченного термина (8) и/или по меньшей мере одного первого термина с по меньшей мере одним соответствующим онтологическим понятием в онтологии, при этом статистический показатель сочетаемости относится к вероятности сочетаемости этого по меньшей мере одного онтологического понятия со вторым термином.
6. Система по п. 1, в которой средство (11) выбора терминов функционально соединено с блоком (2) ввода текста и выполнено с возможностью приема упомянутой части термина, который вводится пользователем, и выполнено с возможностью выбора часто сочетающегося термина (12), основываясь на принятой части термина.
7. Система по п. 6, в которой средство (11) выбора терминов выполнено с возможностью выбора по меньшей мере одного часто сочетающегося термина (12), начало которого совпадает с принятой частью термина.
8. Система по п. 1, в которой отчеты (1, 21) включают в себя медицинские отчеты о пациенте и секции включают в себя секцию истории пациента, секцию клинических данных и/или секцию диагноза.
9. Система для анализа отчетов, содержащая
анализатор (22) секций для определения разделения множества отчетов (21) на секции;
определитель (23) общих секций для определения множества секций, общих для множества отчетов (21);
средство (24) извлечения терминов для извлечения множества терминов (25) из общих секций отчетов и связывания каждого термина с секцией и отчетом, где он возникает;
генератор (26) статистических показателей сочетаемости для генерирования множества статистических показателей (7) сочетаемости, при этом статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат по меньшей мере один первый термин в по меньшей мере одной первой секции совместно со вторым термином во второй секции, при этом упомянутая по меньшей мере одна первая секция отличается от второй секции.
10. Система по п. 9, в которой отчет содержит документ, и при этом секция содержит заголовок секции и основную часть секции.
11. Система по п. 9, в которой отчет (1, 21) содержит множество файлов, и при этом различные файлы содержат различные секции отчета.
12. Система по п. 9, в которой извлеченный термин (8) и/или первый термин содержат выражение, содержащее множество слов.
13. Система по п. 9, содержащая процессор (14) естественного языка для связывания извлеченного термина (8) и/или по меньшей мере одного первого термина с по меньшей мере одним соответствующим онтологическим понятием в онтологии, при этом статистический показатель сочетаемости относится к вероятности сочетаемости этого по меньшей мере одного онтологического понятия со вторым термином.
14. Система по п. 9, в которой отчеты (1, 21) включают в себя медицинские отчеты о пациенте и секции включают в себя секцию истории пациента, секцию клинических данных и/или секцию диагноза.
15. Рабочая станция, содержащая систему по одному или обоим из пп. 1 и 9.
16. Способ предложения терминов автозавершения во время ввода текста отчета, содержащий этапы, на которых
предоставляют возможность (41) пользователю вводить текст в текущий отчет;
определяют (42) множество секций текущего отчета;
обнаруживают (43) секцию текущего отчета, над которой работает пользователь, получая таким образом текущую секцию;
извлекают (44) термин, возникающий в текущем отчете, получая таким образом извлеченный термин, и идентифицируют секцию текущего отчета, в которой возникает извлеченный термин, получая таким образом секцию извлеченного термина, при этом секция извлеченного термина и текущая секция являются разными секциями;
осуществляют доступ (45) ко множеству статистических показателей сочетаемости, при этом статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты в области знаний содержат по меньшей мере один первый термин в по меньшей мере одной первой секции совместно со вторым термином во второй секции;
выбирают (46) по меньшей мере один часто сочетающийся термин, основываясь на извлеченном термине, секции извлеченного термина, текущей секции и по меньшей мере одном из статистических показателей сочетаемости, при этом выбор по меньшей мере одного часто сочетающегося термина для части термина, вводимого в текущей секции, основан на по меньшей мере одном из статистических показателей сочетаемости, связанном с извлеченным термином в секции извлеченного термина; и
обеспечивают (47) указание упомянутого по меньшей мере одного часто сочетающегося термина пользователю.
17. Способ анализа множества отчетов, содержащий этапы, на которых
определяют (31) разделение отчетов на секции;
определяют (32) множество секций, общих для множества отчетов;
извлекают (33) множество терминов из общих секций отчетов и связывают каждый термин с секцией и отчетом, где он возникает; и
генерируют (34) множество статистических показателей сочетаемости, при этом статистический показатель сочетаемости указывает по меньшей мере один первый термин, по меньшей мере одну первую секцию, второй термин, вторую секцию и частоту, с которой отчеты содержат по меньшей мере один первый термин в по меньшей мере одной первой секции совместно со вторым термином во второй секции, при этом упомянутая по меньшей мере одна первая секция отличается от второй секции.
18. Машиночитаемый носитель информации, на котором сохранены инструкции для предписания процессорной системе выполнять способ по п. 16 или 17.
RU2013125452/07A 2010-11-01 2011-10-31 Предложение релевантных терминов во время ввода текста RU2589727C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US40869910P 2010-11-01 2010-11-01
US61/408,699 2010-11-01
PCT/IB2011/054826 WO2012059854A1 (en) 2010-11-01 2011-10-31 Suggesting relevant terms during text entry

Publications (2)

Publication Number Publication Date
RU2013125452A RU2013125452A (ru) 2014-12-10
RU2589727C2 true RU2589727C2 (ru) 2016-07-10

Family

ID=45002085

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013125452/07A RU2589727C2 (ru) 2010-11-01 2011-10-31 Предложение релевантных терминов во время ввода текста

Country Status (7)

Country Link
US (1) US9886427B2 (ru)
EP (1) EP2635979A1 (ru)
JP (1) JP5866370B2 (ru)
CN (1) CN103189858B (ru)
BR (1) BR112013010284A2 (ru)
RU (1) RU2589727C2 (ru)
WO (1) WO2012059854A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2726009C1 (ru) * 2017-12-27 2020-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9411799B2 (en) * 2012-04-05 2016-08-09 Siemens Aktiengesellschaft Methods, apparatuses, systems and computer readable mediums to create documents and templates using domain ontology concepts
US11282611B2 (en) * 2013-03-01 2022-03-22 3M Innovative Properties Company Classifying medical records for identification of clinical concepts
US9251467B2 (en) * 2013-03-03 2016-02-02 Microsoft Technology Licensing, Llc Probabilistic parsing
US11183300B2 (en) * 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
JP6741576B2 (ja) * 2013-06-18 2020-08-19 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. タイプアヘッド編集機能を含む心電図(ecg)装置及びその作動方法
IN2013MU02217A (ru) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
CN103530358A (zh) * 2013-10-10 2014-01-22 中国中医科学院 一种基于递增式术语库的电子病历快速录入系统
US11183307B2 (en) * 2015-11-05 2021-11-23 Koninklijke Philips N.V. Crowd-sourced text annotation system for use by information extraction applications
US20170161364A1 (en) * 2015-12-07 2017-06-08 International Business Machines Corporation Generating messages using keywords
CN106855748A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 一种信息输入方法、装置和智能终端
JP6679954B2 (ja) * 2016-01-28 2020-04-15 富士通株式会社 属性付与制御プログラム、情報処理装置および属性付与制御方法
US10733359B2 (en) * 2016-08-26 2020-08-04 Adobe Inc. Expanding input content utilizing previously-generated content
JP2021064019A (ja) * 2019-10-10 2021-04-22 富士ゼロックス株式会社 文作成支援装置、文作成支援システム及びプログラム
JP7305566B2 (ja) * 2020-01-21 2023-07-10 株式会社東芝 情報処理装置、情報処理システム、および情報処理プログラム
US20220005566A1 (en) * 2020-07-02 2022-01-06 Enlitic, Inc. Medical scan labeling system with ontology-based autocomplete and methods for use therewith
CN114997118A (zh) * 2021-03-02 2022-09-02 北京字跳网络技术有限公司 一种文档处理方法、装置、设备和介质
US11989509B2 (en) * 2021-09-03 2024-05-21 International Business Machines Corporation Generative adversarial network implemented digital script modification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
RU2005135427A (ru) * 2004-12-15 2007-05-27 Майкрософт Корпорейшн (Us) Система и способ автоматического завершения формул электронной таблицы

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7343551B1 (en) * 2002-11-27 2008-03-11 Adobe Systems Incorporated Autocompleting form fields based on previously entered values
US7630980B2 (en) 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
JP2007034871A (ja) * 2005-07-29 2007-02-08 Sanyo Electric Co Ltd 文字入力装置および文字入力装置プログラム
KR100818357B1 (ko) 2006-05-10 2008-04-02 (주)윕스 연관모델을 이용한 검색어 제시 시스템 및 그 제시 방법
FR2910143B1 (fr) * 2006-12-19 2009-04-03 Eastman Kodak Co Procede pour predire automatiquement des mots dans un texte associe a un message multimedia
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US20080294406A1 (en) 2007-05-21 2008-11-27 The Mathworks, Inc. Context-based completion for life science applications
US8965922B2 (en) * 2007-10-30 2015-02-24 International Business Machines Corporation Intelligent content assistance
US20090249198A1 (en) * 2008-04-01 2009-10-01 Yahoo! Inc. Techniques for input recogniton and completion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
RU2005135427A (ru) * 2004-12-15 2007-05-27 Майкрософт Корпорейшн (Us) Система и способ автоматического завершения формул электронной таблицы

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2726009C1 (ru) * 2017-12-27 2020-07-08 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
RU2769427C1 (ru) * 2021-04-05 2022-03-31 Анатолий Владимирович Буров Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности

Also Published As

Publication number Publication date
JP2013541786A (ja) 2013-11-14
RU2013125452A (ru) 2014-12-10
US20130212475A1 (en) 2013-08-15
EP2635979A1 (en) 2013-09-11
CN103189858B (zh) 2017-02-22
BR112013010284A2 (pt) 2016-09-20
JP5866370B2 (ja) 2016-02-17
US9886427B2 (en) 2018-02-06
WO2012059854A1 (en) 2012-05-10
CN103189858A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
RU2589727C2 (ru) Предложение релевантных терминов во время ввода текста
US7617078B2 (en) Patient data mining
US20140181128A1 (en) Systems and Methods for Processing Patient Data History
US20150178386A1 (en) System and Method for Extracting Measurement-Entity Relations
US9477662B2 (en) Computer-assisted abstraction for reporting of quality measures
Costumero et al. An approach to detect negation on medical documents in Spanish
Boudin et al. Clinical information retrieval using document and PICO structure
US20140081623A1 (en) Method for processing medical reports
US10909129B2 (en) Automated identification of salient finding codes in structured and narrative reports
US8600772B2 (en) Systems and methods for interfacing with healthcare organization coding system
CA2705175C (en) Systems and methods for generating subsets of electronic healthcare-related documents
US9864838B2 (en) Clinically intelligent parsing
CN112307172A (zh) 一种语义解析设备、方法、终端及存储介质
US20240112765A1 (en) Method and system for clinical trials matching
US10586616B2 (en) Systems and methods for generating subsets of electronic healthcare-related documents
Angelova Use of domain knowledge in the automatic extraction of structured representations from patient-related texts
CN116992839B (zh) 病案首页自动生成方法、装置及设备
KR102627462B1 (ko) Mec를 이용한 의료기기 연동 및 문진성능 향상시스템 및 그 방법
RU2751993C1 (ru) Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
US20240152534A1 (en) Method and system for retrieval of contextual information related to unmet medical need of an indication
Boytcheva et al. EVTIMA: a system for IE from hospital patient records in Bulgarian
Hasan et al. Infusing clinical knowledge into tokenisers for language models
Gao Hierarchical Neural Architectures for Classifying Cancer Pathology Reports
WO2023247384A1 (en) Data processing method, device and storage medium
CN117936112A (zh) 脓毒症医学信息系统及其构建方法

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20201101