WO2023139985A1 - 内視鏡システム、医療情報処理方法、及び医療情報処理プログラム - Google Patents

内視鏡システム、医療情報処理方法、及び医療情報処理プログラム Download PDF

Info

Publication number
WO2023139985A1
WO2023139985A1 PCT/JP2022/045977 JP2022045977W WO2023139985A1 WO 2023139985 A1 WO2023139985 A1 WO 2023139985A1 JP 2022045977 W JP2022045977 W JP 2022045977W WO 2023139985 A1 WO2023139985 A1 WO 2023139985A1
Authority
WO
WIPO (PCT)
Prior art keywords
processor
delimiter
endoscope
endoscope system
voice recognition
Prior art date
Application number
PCT/JP2022/045977
Other languages
English (en)
French (fr)
Inventor
裕哉 木村
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023139985A1 publication Critical patent/WO2023139985A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof

Definitions

  • the present invention relates to an endoscope system, a medical information processing method, and a medical information processing program that perform voice input and voice recognition for medical images.
  • the present invention has been made in view of such circumstances, and an object of the present invention is to provide an endoscope system, a medical information processing method, and a medical information processing program that can easily record related speech recognition results.
  • the endoscope system is an endoscope system that includes: a voice recognition device that receives voice input and performs voice recognition; an endoscope that acquires medical images of a subject; and a processor.
  • the results of speech recognition are grouped and recorded in a recording device during the time period until another segment corresponding to one segment is detected.
  • the results of speech recognition are grouped and recorded in a recording device at a time after the time when one partition is detected and until another partition corresponding to the one partition is detected, the related speech recognition results can be easily recorded, and the user can easily grasp the related speech recognition results by referring to the record.
  • the processor when speech recognition is started, causes the display device to display item information indicating an item for speech recognition and the result of speech recognition corresponding to the item information.
  • the processor causes the recording device to record voice recognition results corresponding to one set of item information as one group.
  • the processor continues to display the item information and the voice recognition result after detecting one delimiter until another delimiter is detected, and changes the display mode of the item information and the voice recognition result on the display device when another delimiter is detected.
  • the processor causes the display device to display the item information and the speech recognition result in real time.
  • the item information includes at least one of diagnosis, findings, treatment, and hemostasis.
  • the processor detects one delimiter as the start delimiter for grouping and detects the other delimiter as the end delimiter for grouping.
  • the processor groups speech recognition results during a period from detection of the end delimiter to detection of the end delimiter again at a time after the time when the end delimiter is detected.
  • the processor completes detection of a specific subject in a medical image, voice inputs a first specific phrase to the voice recognition device, continues a state of no voice input to the voice recognition device for a predetermined time or more, completes voice input for all of the voice recognition items, completes voice input for a specific item among the voice recognition items, acquires information indicating that the insertion length and/or insertion shape of the endoscope has changed by a predetermined value or more, endoscope At least one of the start or stop of operation by the user of the mirror system via the operation device is detected as an end delimiter.
  • the processor detects, as a start delimiter, at least one of: start of detection of a specific subject in a medical image; voice input of a second specific phrase to the speech recognition device; input by a user of the endoscope system via an operation device;
  • the processor determines at least one of the lesion, the candidate lesion region, the landmark, and the post-treatment region as the specific subject.
  • the processor recognizes a specific subject using an image recognizer generated by machine learning.
  • the processor causes the output device to output a message prompting voice input of the medical image when detecting the start delimiter.
  • the processor groups and records images selected from medical images captured by an endoscope during a period from detection of one delimitation to detection of another delimitation, together with voice recognition results.
  • the processor groups and records the images selected from the frame images forming the time-series medical images and/or the images selected from the shot images taken separately from the time-series medical images together with the voice recognition results.
  • the processor causes the time-series medical images and the speech recognition results to be displayed on separate display devices.
  • the medical information processing method is a medical information processing method executed by an endoscope system comprising: a voice recognition device that receives voice input and performs voice recognition; an endoscope that acquires medical images of a subject; and a processor.
  • the voice recognition results are grouped and recorded in a recording device during a period until another break corresponding to one break is detected at a later time.
  • the related speech recognition result can be easily recorded.
  • the seventeenth aspect may have the same configuration as the second to sixteenth aspects.
  • a medical information processing program is a medical information processing program that causes an endoscope system that includes a voice recognition device that receives voice input and performs voice recognition, an endoscope that acquires medical images of a subject, and a processor to execute a medical information processing method.
  • the results of voice recognition are grouped and recorded in a recording device in a period from detection of a break to detection of another break corresponding to the one break at a time after the detection of the one break.
  • the related speech recognition result can be easily recorded.
  • the eighteenth aspect may have the same configuration as the second to sixteenth aspects.
  • a non-temporary and tangible recording medium in which the computer-readable code of the medical information processing program of these aspects is recorded can also be cited as an aspect of the present invention.
  • FIG. 1 is a diagram showing a schematic configuration of an endoscopic image diagnostic system according to the first embodiment.
  • FIG. 2 is a diagram showing a schematic configuration of an endoscope system.
  • FIG. 3 is a diagram showing a schematic configuration of an endoscope.
  • FIG. 4 is a diagram showing an example of the configuration of the end surface of the tip portion.
  • FIG. 5 is a block diagram showing main functions of the endoscopic image generating device.
  • FIG. 6 is a block diagram showing main functions of the endoscope image processing apparatus.
  • FIG. 7 is a block diagram showing main functions of the image recognition processing section.
  • FIG. 8 is a diagram showing another display example of a message prompting voice input.
  • FIG. 9 is a block diagram showing main functions of the tablet terminal.
  • FIG. 1 is a diagram showing a schematic configuration of an endoscopic image diagnostic system according to the first embodiment.
  • FIG. 2 is a diagram showing a schematic configuration of an endoscope system.
  • FIG. 3 is a diagram showing a
  • FIG. 10 is a diagram showing a display example of a message prompting voice input.
  • FIG. 11 is a diagram showing how voice recognition results are grouped.
  • FIG. 12 is a diagram showing a display example of a lesion information input box.
  • FIG. 13 is a diagram showing an example of changing the display mode of the lesion information input box.
  • FIG. 14 is a diagram showing how images are grouped together with speech recognition results.
  • FIG. 15 is another diagram showing how images are grouped together with speech recognition results.
  • FIG. 16 is a diagram showing how voice recognition results are grouped using the end of detection of a lesion as an end delimiter.
  • FIG. 17 is a diagram showing how voice recognition results are grouped using changes in the shape and insertion length of the endoscope as end delimiters.
  • FIG. 18 is a diagram showing how speech recognition results are grouped using a specific word as a start delimiter.
  • FIG. 19 is a diagram showing a schematic configuration of an endoscope system according to the second embodiment.
  • FIG. 20 is a block diagram showing main functions of the endoscopic image generating device according to the second embodiment.
  • FIG. 21 is a block diagram showing main functions of an endoscope image processing apparatus according to the second embodiment.
  • FIG. 22 is a diagram showing how a lesion information input box is displayed on the display device in the second embodiment.
  • Endoscopic Image Diagnosis Support System [First Embodiment] A case where the present invention is applied to an endoscopic image diagnosis support system will be described as an example.
  • An endoscopic image diagnosis support system is a system that supports detection and differentiation of lesions and the like in endoscopy.
  • an example of application to an endoscopic image diagnosis support system that supports detection and differentiation of lesions and the like in lower gastrointestinal endoscopy (colon examination) will be described.
  • FIG. 1 is a block diagram showing the schematic configuration of the endoscopic image diagnosis support system.
  • the endoscopic image diagnosis support system 1 (endoscopic system) of the present embodiment has an endoscopic system 10 (endoscopic system) and an endoscopic information management system 100 .
  • the endoscopic image diagnosis support system 1 may further have a user terminal.
  • FIG. 2 is a block diagram showing a schematic configuration of the endoscope system 10. As shown in FIG.
  • the endoscope system 10 of the present embodiment is configured as a system capable of observation using special light (special light observation) in addition to observation using white light (white light observation).
  • Special light viewing includes narrowband light viewing.
  • Narrowband light observation includes BLI observation (Blue laser imaging observation), NBI observation (Narrowband imaging observation; NBI is a registered trademark), LCI observation (Linked Color Imaging observation), and the like. Note that the special light observation itself is a well-known technique, so detailed description thereof will be omitted.
  • the endoscope system 10 of the present embodiment includes an endoscope 20 (endoscope), a light source device 30, an endoscope image generation device 40 (processor), an endoscope image processing device 60 (processor), a display device 70 (display device), a recording device 75 (recording device), an input device 50, a tablet terminal 90 (processor, display device, recording device), and the like.
  • the endoscope 20 includes an optical system 24 and an image sensor 25 built in the distal end portion 21A of the insertion portion 21 .
  • the endoscopic image generation device 40 and the endoscopic image processing device 60 constitute a medical information processing device 80 .
  • the endoscope system 10 can access the database 210 on the cloud 200 via the tablet terminal 90 .
  • FIG. 3 is a diagram showing a schematic configuration of the endoscope 20. As shown in FIG.
  • the endoscope 20 of this embodiment is an endoscope for lower digestive organs. As shown in FIG. 3 , the endoscope 20 is a flexible endoscope (electronic endoscope) and has an insertion section 21 , an operation section 22 and a connection section 23 .
  • the insertion portion 21 is a portion to be inserted into a hollow organ (eg, large intestine).
  • the insertion portion 21 is composed of a distal end portion 21A, a curved portion 21B, and a flexible portion 21C in order from the distal end side.
  • FIG. 4 is a diagram showing an example of the configuration of the end surface of the tip.
  • the end surface of the distal end portion 21A is provided with an observation window 21a, an illumination window 21b, an air/water nozzle 21c, a forceps outlet 21d, and the like.
  • the observation window 21a is a window for observation.
  • the inside of the hollow organ of the subject is imaged through the observation window 21a. Imaging is performed via an optical system 24 such as a lens built into the distal end portion 21A (the portion of the observation window 21a) and an image sensor 25 (image sensor; see FIG. 2), and time-series images (moving images) and/or still images of the subject can be captured.
  • the image sensor is, for example, a CMOS image sensor (Complementary Metal Oxide Semiconductor image sensor), a CCD image sensor (Charge Coupled Device image sensor), or the like.
  • the illumination window 21b is a window for illumination. Illumination light is irradiated into the hollow organ through the illumination window 21b.
  • the air/water nozzle 21c is a cleaning nozzle. A cleaning liquid and a drying gas are jetted from the air/water nozzle 21c toward the observation window 21a.
  • a forceps outlet 21d is an outlet for treatment tools such as forceps. The forceps outlet 21d also functions as a suction port for sucking body fluids and the like.
  • the bending portion 21B is a portion that bends according to the operation of the angle knob 22A provided on the operating portion 22.
  • the bending portion 21B bends in four directions of up, down, left, and right.
  • the flexible portion 21C is an elongated portion provided between the bending portion 21B and the operating portion 22.
  • the flexible portion 21C has flexibility.
  • the operation part 22 is a part that is held by the operator to perform various operations.
  • the operation unit 22 is provided with various operation members.
  • the operation unit 22 includes an angle knob 22A for bending the bending portion 21B, an air/water supply button 22B for performing an air/water supply operation, and a suction button 22C for performing a suction operation.
  • the operation unit 22 includes an operation member (shutter button) for capturing a still image, an operation member for switching observation modes, an operation member for switching ON/OFF of various support functions, and the like.
  • the operation portion 22 is provided with a forceps insertion opening 22D for inserting a treatment tool such as forceps.
  • a treatment instrument inserted from the forceps insertion port 22D is drawn out from a forceps outlet 21d (see FIG. 4) at the distal end of the insertion portion 21.
  • the treatment instrument includes biopsy forceps, a snare, and the like.
  • the connection part 23 is a part for connecting the endoscope 20 to the light source device 30, the endoscope image generation device 40, and the like.
  • the connecting portion 23 includes a cord 23A extending from the operating portion 22, and a light guide connector 23B and a video connector 23C provided at the tip of the cord 23A.
  • the light guide connector 23B is a connector for connecting to the light source device 30 .
  • the video connector 23C is a connector for connecting to the endoscopic image generating device 40 .
  • the light source device 30 generates illumination light.
  • the endoscope system 10 of the present embodiment is configured as a system capable of special light observation in addition to normal white light observation. Therefore, the light source device 30 is configured to be capable of generating light (for example, narrowband light) corresponding to special light observation in addition to normal white light.
  • the special light observation itself is a known technology, and therefore the description of the generation of the light and the like will be omitted.
  • the endoscopic image generation device 40 (processor) collectively controls the operation of the entire endoscope system 10 together with the endoscopic image processing device 60 (processor).
  • the endoscopic image generation device 40 includes a processor, a main memory (memory), an auxiliary memory (memory), a communication section, and the like as its hardware configuration. That is, the endoscopic image generation device 40 has a so-called computer configuration as its hardware configuration.
  • the processor includes, for example, a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field Programmable Gate Array), PLD (Programmable Logic Device), and the like.
  • the main storage unit is composed of, for example, a RAM (Random Access Memory) or the like.
  • the auxiliary storage unit is composed of non-temporary and tangible recording media such as flash memory, ROM (Read Only Memory), EEPROM (Electronically Erasable and Programmable Read Only Memory), for example.
  • FIG. 5 is a block diagram showing the main functions of the endoscopic image generating device 40. As shown in FIG.
  • the endoscope image generation device 40 has functions such as an endoscope control section 41, a light source control section 42, an image generation section 43, an input control section 44, an output control section 45, and the like.
  • Various programs executed by the processor (which may include the medical information processing program according to the present invention or a part thereof) and various data necessary for control and the like are stored in the above-described auxiliary storage unit, and each function of the endoscopic image generation device 40 is realized by the processor executing these programs.
  • the processor of the endoscopic image generation device 40 is an example of the processor in the endoscopic system and medical information processing device according to the present invention.
  • the endoscope control unit 41 controls the endoscope 20.
  • the control of the endoscope 20 includes drive control of the image sensor 25, air/water supply control, suction control, and the like.
  • the light source controller 42 controls the light source device 30 .
  • the control of the light source device 30 includes light emission control of the light source and the like.
  • the image generator 43 generates a captured image (endoscopic image, medical image) based on the signal output from the image sensor 25 of the endoscope 20 .
  • the image generator 43 can generate still images and/or moving images (time-series medical images) as captured images.
  • the image generator 43 may perform various image processing on the generated image.
  • the input control unit 44 receives operation inputs and various information inputs via the input device 50 .
  • the output control unit 45 controls output of information to the endoscope image processing device 60 .
  • the information output to the endoscope image processing device 60 includes various kinds of operation information input from the input device 50 in addition to the endoscope image obtained by imaging.
  • the input device 50 constitutes a user interface in the endoscope system 10 together with the display device 70 .
  • the input device 50 includes a foot switch 52 (operation device).
  • the foot switch 52 is an operation device that is placed at the operator's feet and operated with the foot, and by stepping on the pedal, an operation signal (for example, a signal for selecting a candidate for speech recognition or a signal indicating the start or end of grouping of speech recognition results) is output.
  • the footswitch 52 is controlled by the input control unit 44 of the endoscopic image generating device 40, but the present invention is not limited to this embodiment, and the footswitch 52 may be controlled via the endoscopic image processing device 60, the display device 70, or the like.
  • an operation device (button, switch, etc.) having the same function as the foot switch 52 may be provided in the operation section 22 of the endoscope 20 .
  • the input device 50 can include known input devices such as a keyboard, mouse, touch panel, microphone, line-of-sight input device, etc. as operation devices.
  • the endoscope image processing apparatus 60 includes a processor, a main storage section, an auxiliary storage section, a communication section, etc. as its hardware configuration. That is, the endoscope image processing apparatus 60 has a so-called computer configuration as its hardware configuration.
  • the processor includes, for example, a CPU, GPU (Graphics Processing Unit), FPGA (Field Programmable Gate Array), PLD (Programmable Logic Device), and the like.
  • the processor of the endoscope image processing device 60 is an example of the processor in the endoscope system and medical information processing device according to the present invention.
  • the processor of the endoscope image generation device 40 and the processor of the endoscope image processing device 60 may share the function of the processor in the endoscope system and the medical information processing device according to the present invention.
  • the endoscopic image generating device 40 may mainly have the function of an "endoscopic processor” for generating an endoscopic image
  • the endoscopic image processing device 60 may mainly have the function of a "CAD box (CAD: Computer Aided Diagnosis)" for performing image processing on the endoscopic image.
  • CAD box Computer Aided Diagnosis
  • the main storage unit is composed of memory such as RAM, for example.
  • the auxiliary storage unit is composed of, for example, a non-temporary and tangible recording medium (memory) such as flash memory, ROM, and EEPROM, and stores various programs executed by the processor (including the medical information processing program according to the present invention or part thereof), various data necessary for control, and the like.
  • the communication unit is composed of, for example, a communication interface connectable to a network.
  • the endoscope image processing apparatus 60 is communicably connected to the endoscope information management system 100 via a communication unit.
  • FIG. 6 is a block diagram showing the main functions of the endoscope image processing device 60. As shown in FIG.
  • the endoscopic image processing device 60 mainly has functions such as an endoscopic image acquisition unit 61, an input information acquisition unit 62, an image recognition processing unit 63, a partition detection unit 64, a display control unit 65, and an examination information output control unit 66. These functions are realized by executing a program (which may include a medical information processing program according to the present invention or a part thereof) stored in an auxiliary storage unit or the like by the processor described above.
  • a program which may include a medical information processing program according to the present invention or a part thereof
  • Endoscopic image acquisition unit acquires an endoscopic image from the endoscopic image generation device 40 .
  • Image acquisition can be done in real time. That is, it is possible to sequentially acquire (sequentially input) time-series medical images of a subject in real time.
  • the input information acquisition unit 62 (processor) acquires information input via the input device 50 and the endoscope 20 .
  • the input information acquisition section 62 mainly includes an information acquisition section 62A that acquires input information other than voice information.
  • Information input to the input information acquisition unit 62 via the input device 50 includes information (speech recognition results, signals indicating breaks, etc.) input via the foot switch 52, the microphone 90A of the tablet terminal 90, or a keyboard or mouse (not shown).
  • Information input via the endoscope 20 includes information such as an instruction to start capturing an endoscopic image (moving image) and an instruction to capture a still image.
  • the user can input a signal indicating a delimiter for speech recognition, select a speech recognition candidate, and the like via the microphone 90A and foot switch 52 .
  • the input information acquisition unit 62 acquires operation information of the foot switch 52 via the endoscope image generation device 40 .
  • the image recognition processing unit 63 (processor) performs image recognition on the endoscopic image acquired by the endoscopic image acquisition unit 61 .
  • the image recognition processing unit 63 can perform image recognition in real time (without time delay from image acquisition to recognition).
  • FIG. 7 is a block diagram showing the main functions of the image recognition processing section 63.
  • the image recognition processing section 63 has functions such as a lesion detection section 63A, a discrimination section 63B, a specific region detection section 63C, a treatment instrument detection section 63D, a hemostat detection section 63E, and a measurement section 63F.
  • Each of these parts can be used to determine whether a specific subject is included in the endoscopic image.
  • a "specific subject” is at least one of, for example, a lesion, a lesion candidate region, a landmark, and a post-treatment region, but may also include a treatment tool and a hemostat. Also, the "specific subject” may differ depending on each part of the image recognition processing part 63 as described below.
  • the lesion detection unit 63A detects a lesion such as a polyp (lesion; an example of a "specific subject") from an endoscopic image.
  • Processing for detecting a lesion includes processing for detecting a portion that is definitely a lesion, processing for detecting a portion that may be a lesion (benign tumor or dysplasia, etc.; lesion candidate region), processing for recognizing a region after treating a lesion (post-treatment region), and processing for recognizing a portion having characteristics that may be directly or indirectly related to a lesion (redness, etc.).
  • the discrimination unit 63B When the lesion detection unit 63A determines that "a lesion (specific subject) is included in the endoscopic image", the discrimination unit 63B performs discrimination processing on the lesion detected by the lesion detection unit 63A (starts discrimination mode).
  • the discrimination section 63B performs a neoplastic (NEOPLASTIC) or non-neoplastic (HYPERPLASTIC) discrimination process on a lesion such as a polyp detected by the lesion detection section 63A.
  • NEOPLASTIC neoplastic
  • HYPERPLASTIC non-neoplastic
  • the discrimination section 63B can be configured to start outputting the discrimination result when a predetermined criterion is satisfied.
  • predetermined criteria for example, "when the reliability of the discrimination result (depending on the conditions such as the exposure of the endoscopic image, the degree of focus, and the blurring) and its statistical value (maximum, minimum, average, etc. within a predetermined period) is equal to or greater than a threshold value” can be adopted, but other criteria may be used.
  • the start of discrimination mode and the start of output of discrimination results can be used as a start delimiter (one delimiter, another delimiter) when grouping speech recognition results.
  • the specific area detection unit 63C performs processing for detecting specific areas (landmarks) within the hollow organ from the endoscopic image. For example, processing for detecting the ileocecal region of the large intestine is performed.
  • the large intestine is an example of a hollow organ
  • the ileocecal region is an example of a specific region.
  • the specific region detection unit 63C may detect, for example, the liver flexure (right colon), the splenic flexure (left colon), the rectal sigmoid, and the like. Further, the specific area detection section 63C may detect a plurality of specific areas.
  • the treatment instrument detection unit 63D detects the treatment instrument appearing in the endoscopic image and performs processing for determining the type of the treatment instrument.
  • the treatment instrument detector 63D can be configured to detect a plurality of types of treatment instruments such as biopsy forceps and snares.
  • the hemostat detection unit 63E detects a hemostat such as a hemostatic clip and performs processing for determining the type of the hemostat.
  • the treatment instrument detection section 63D and the hemostat detection section 63E may be configured by one image recognizer.
  • the measurement unit 63F measures (measures shapes, dimensions, etc.) of lesions, lesion candidate regions, specific regions, post-treatment regions, etc. in the measurement mode.
  • Each part of the image recognition processing unit 63 can be configured using an image recognizer (learned model) generated by machine learning.
  • an image recognizer (learned model) generated by machine learning.
  • each of the above-mentioned units can be composed of an image recognizer (learned model) trained using a machine learning algorithm such as a neural network (NN), a convolutional neural network (CNN), AdaBoost, and a random forest (Random Forest) (which may be derived from these).
  • NN neural network
  • CNN convolutional neural network
  • AdaBoost AdaBoost
  • Random Forest random forest
  • each of these units can output the final output (discrimination result, type of treatment instrument, etc.) according to the reliability by setting the layer configuration of the network as necessary. Further, each of the above-described units may perform image recognition on all frames of the endoscopic image, or may intermittently perform image recognition on some frames.
  • the output of the recognition result of the endoscopic image from each of these units, or the output of the recognition result that satisfies a predetermined criterion may be used as the start delimiter or end delimiter for voice recognition (trigger for voice input), and the period during which these outputs are performed may be the period for executing voice recognition.
  • each part of the image recognition processing unit 63 may be configured with an image recognizer (learned model)
  • a configuration may be employed in which a feature amount is calculated from an endoscopic image for some or all of each part, and detection is performed using the calculated feature amount.
  • a delimiter detection unit 64 detects delimiters (end delimiters when grouping voice recognition results; one delimiter, another delimiter) for speech recognition results. Specifically, the delimitation detection unit 64 terminates detection of a specific subject in an endoscopic image (medical image), voice input of a first specific phrase to the microphone 90A (voice recognition device), continuation of a non-input state of voice input to the microphone 90A for a predetermined time or longer, completion of voice input for all of the voice recognition items, completion of voice input for a specific item among the voice recognition items, acquisition of information indicating that the insertion length and/or insertion shape of the endoscope has changed beyond a predetermined value, endoscope. At least one of the start and stop of the operation by the user of the system via the operation device (foot switch 52, operation member provided on the operation unit 22, etc.) can be recognized as the end delimiter. The details of speech recognition using these divisions will be described later.
  • the partition detection unit 64 can, for example, determine at least one of a lesion, a lesion candidate region, a landmark, and a post-treatment region as a "specific subject", but may also recognize treatment tools and hemostats as a "specific subject".
  • the section detection unit 64 can measure the insertion length and/or insertion shape of the endoscope by using, for example, a large intestine endoscope shape measuring device connected to the endoscope system 10 .
  • the display control unit 65 controls the display of the display device 70 .
  • Main display control performed by the display control unit 65 will be described below.
  • the display control unit 65 causes the display device 70 to display an image (endoscopic image) captured by the endoscope 20 in real time (without time delay) during an examination (imaging).
  • FIG. 8 is a diagram showing an example of a screen display during examination. As shown in the figure, an endoscopic image I (live view) is displayed in a main display area A1 set within the screen 70A. A secondary display area A2 is further set on the screen 70A, and various information related to the examination is displayed.
  • the example shown in FIG. 8 shows an example in which patient-related information Ip and a still image Is of an endoscopic image taken during an examination are displayed in the sub-display area A2.
  • the still images Is are displayed, for example, in the order in which they were shot from top to bottom on the screen 70A. Note that, when a specific subject such as a lesion is detected, the display control section 65 may highlight the subject using a bounding box or the like.
  • the display control unit 65 can display on the screen 70A an icon 300 indicating the state of voice recognition, an icon 320 indicating the site being imaged, a site to be imaged (ascending colon, transverse colon, descending colon, etc.), and a display area 340 for textual display of the results of voice recognition in real time (without time delay). Further, the display control unit 65 may display a message prompting voice input on the screen 70A when voice recognition becomes possible.
  • the display control unit 65 can acquire and display information on the region by image recognition from the endoscopic image, input by the user via an operation device, an external device (for example, an endoscope insertion shape observation device) connected to the endoscope system 10, and the like. Note that the display control unit 65 may display various information on the display 90E of the tablet terminal 90 or another display device.
  • the examination information output control section 66 outputs examination information to the recording device 75 and/or the endoscope information management system 100 . Also, the inspection information output control section 66 may output the inspection information to the flash memory 90H or the database 210 .
  • the examination information may include, for example, an endoscopic image taken during the examination, the result of determination of a specific subject, the result of voice recognition, the site and treatment name input during the examination, information on the treatment tool, and the like. As will be described later, the test information output control unit 66 can group and output these pieces of information. Further, the examination information output control unit 66 can output examination information, for example, for each lesion or sample collection.
  • the examination information output control unit 66 can output, for example, an endoscopic image of a lesion or the like in association with the result of voice recognition or the information of the part.
  • the examination information output control unit 66 can output the information of the selected treatment name and the information of the detected treatment tool in association with the endoscopic image and site information, voice recognition results, and the like.
  • the examination information output control unit 66 can output endoscopic images captured separately from lesions and the like to the recording device 75 and/or the endoscopic information management system 100 at appropriate times.
  • the examination information output control unit 66 may add information on the photographing date and time to the endoscopic image and output the endoscopic image.
  • test information output control unit 66 can associate each piece of information with each other, group them by speech recognition delimiters, and output the test information.
  • the recording device 75 includes various magneto-optical recording devices, semiconductor memories, and their control devices, and can record endoscopic images (moving images, still images), image recognition results, voice recognition results, examination information, report creation support information, and the like. These pieces of information may be recorded in the sub-storage unit of the endoscopic image generation device 40 or the endoscopic image processing device 60, or in the recording device provided in the endoscopic information management system 100, or in the memory of the tablet terminal 90 or the database 210.
  • FIG. 9 is a diagram showing the configuration of the tablet terminal 90.
  • the tablet terminal 90 includes a microphone 90A (voice input device), a voice recognition section 90B that recognizes voice input to the microphone 90A, and a voice recognition dictionary 90C used for voice recognition.
  • the voice recognition dictionary 62C may include a plurality of dictionaries with different contents (for example, dictionaries relating to site information, finding information, treatment information, and hemostasis information).
  • the tablet terminal 90 includes a display control unit 90D that performs display control of a lesion information input box (item information and voice recognition results corresponding to the item information; see FIGS. 12 and 13) and the like, which will be described later, and a lesion information input box.
  • the speech recognition unit 90B performs speech recognition by referring to the speech recognition dictionary 90C.
  • the voice recognition dictionary 90C may include a plurality of dictionaries with different characteristics (for example, target regions), the image recognition processing unit 63 may recognize the imaging region of the endoscopic image, and the voice recognition unit 90B may select an appropriate voice recognition dictionary based on the recognition result.
  • FIG. 9 describes the case where the tablet terminal 90 includes a microphone 90A and a speaker 90F, but in addition to or instead of these devices, an external microphone and/or speaker, or a headset (voice input device, output device) including a microphone and speaker may be used.
  • the tablet terminal 90 also functions as an interface for speech recognition. For example, customized settings for voice recognition for each user can be stored in a flash memory 90H or the like and displayed on the display 90E in response to a user's operation, or usage guidance can be displayed on the display, or an application (program) operation history for the tablet terminal 90 can be collected and displayed. Further, the tablet terminal 90 can acquire or update applications and data by connecting to the Internet or the cloud via the communication control section 90G. In the speech recognition unit 90B, learning of speech recognition may be performed according to the features of the user's speech.
  • the functions of the tablet terminal 90 described above can be realized using a processor such as a CPU.
  • the program (the medical information processing program according to the present invention or part thereof (mainly the part related to speech recognition)) and data stored in the flash memory 90H (an example of a non-temporary and tangible recording medium) are referred to, and the RAM 90I is used as a temporary storage area or work area.
  • a device such as a desktop or notebook computer or a smart phone may be used.
  • the input device 50 may be provided with a microphone instead of the microphone 90A or in addition to the microphone 90A (second embodiment described later, see FIG. 20).
  • the delimiter detection unit 64 can detect these as the start delimiters for grouping (one delimiter). Further, in response to these detections, the display control unit 90D (processor) can cause the output device to output a message prompting voice input for the endoscopic image. Specifically, the display control unit 90D may display a message as shown in FIG. 10 on the display 90E (output device) of the tablet terminal 90, or may output a voice message from the speaker 72 (output device) or the speaker 90F (output device). By outputting such a message, the user can easily understand that speech recognition is possible.
  • the speech recognition unit 90B may start speech recognition and grouping thereof after outputting the message, or may automatically start speech recognition and grouping thereof when imaging of endoscopic images (time-series medical images) begins (in this case, the delimitation detection unit 64 can detect the start of imaging as a "grouping start delimiter").
  • a delimiter detection unit 64 detects a delimiter (end delimiter of voice recognition; delimiter) for a speech recognition result. After the start delimiter (one delimiter) is detected by the delimiter detection unit 64, when the end delimiter (other delimiter) corresponding to the start delimiter is detected again at a time after the detection of the start delimiter, the test information output control unit 66 (processor) groups the speech recognition results in the period from the start delimiter to the end delimiter and records them in the recording device 75 and/or the flash memory 90H (recording device).
  • FIG. 11 is a diagram showing how voice recognition results are grouped and recorded.
  • the figure shows an example of grouping the speech input and speech recognition of the word "registration" (first specific phrase) as an end delimiter (delimiter), and the test information output control unit 66 records the results of voice recognition in periods T1 and T2 as one group, respectively.
  • registration is an example of the first specific phrase, and other phrases such as “determine” may be used.
  • the word “registration” itself need not be grouped.
  • grouping include recording multiple voice recognition results in one file or folder (may be recorded in units of lesion information input boxes, which will be described later), and adding links to other voice recognition results to voice recognition results.
  • periods T1 and T2 are speech recognition periods for different lesions.
  • the figure of the microphone indicates the timing of voice input and voice recognition, and voice recognition is also performed according to the voice input.
  • the start delimiter one delimiter
  • an end delimiter corresponding to the start delimiter is detected.
  • the end delimiter is detected again at the time t3 after the time t2, and the voice recognition results in the period from the time t2 to the time t3 are grouped. That is, in the example of FIG. 11, the voice input of the word "registration" at time t2 is the end delimiter of period T1 and the start delimiter of period T2.
  • the speech recognition results grouped in this way can be utilized for report creation and the like.
  • the display control unit 90D causes the display 90E (display device) to display a lesion information input box (item information indicating items to be recognized by voice) and voice recognition results corresponding to the item information, as illustrated in FIG. Part (a) of FIG. 12 is an example of a lesion information input box 500 displayed (uninput state).
  • the lesion information input box 500 is composed of an area 500A indicating item information and an area 500B indicating the result of voice recognition corresponding to the item information.
  • item information includes diagnosis, findings, treatment, and hemostasis (a set of item information).
  • item information preferably includes at least one of diagnosis, findings, treatment, and hemostasis.
  • Part (b) of FIG. 12 shows the state of voice input and voice recognition of the site and diagnosis among the item information. With such a lesion information input box, the user can easily grasp the items to be voice-recognized and the input state thereof.
  • Part (c) of FIG. 12 shows an example in which the area 501 displaying uninputted items is grayed out (one mode of identification display). By performing identification display in this way, the user can easily grasp the items that have not been input.
  • the display control unit 90D can display the lesion information input box 500 (item information) and the speech recognition result in real time (without time delay).
  • the display control unit 90D can display the voice recognition result on a display device separate from the display device that displays the time-series endoscopic images.
  • the lesion information input box described above is displayed and input for each lesion (an example of the region of interest), and when multiple lesions are found in the examination, multiple lesion information input boxes corresponding to these lesions are displayed and input.
  • the display control unit 90D detects the grouping end delimiter (delimiter)
  • the display mode of the item information and the voice recognition result on the display 90E can be changed (for example, the discriminating power can be reduced).
  • FIG. 13 is a diagram showing an example of such a display mode change. In the example shown in part (a) of FIG.
  • the display control unit 90D dashes and grays out the lesion information input boxes 502 whose grouping has been confirmed, and in the example shown in part (b) of FIG.
  • the display control unit 90D may display the lesion information input box for which grouping has been confirmed as an icon, or may erase the icon. By changing the display mode in this manner, the user can easily grasp the lesion information input box that is currently being input.
  • FIG. 14 is a diagram showing how images are also grouped.
  • the examination information output control unit 66 selects a still image 600A from among three still images captured during the period T3 (images captured separately from time-series medical images; indicated by camera symbols in FIGS. 14 and 15), and groups them together with the voice recognition result.
  • the voice input of the word "registration" at time t1 is the end delimiter of period T3, and the end delimiter of the previous period can be the start delimiter of period T3 (the same applies to FIGS. 15, 16, and 17 described later).
  • FIG. 15 is another diagram showing how images are also grouped.
  • the examination information output control unit 66 selects images 602A and 602B from the frame images constituting the time-series medical images captured during the period T4, and groups them together with the speech recognition result.
  • the test information output control unit 66 can automatically (without user operation) select images to be grouped together with the voice recognition results based on predetermined conditions. For example, the examination information output control section 66 can select a still image captured at a predetermined timing. In the example of FIG. 14, the "still image captured at the determined timing" is the first still image captured during the period T3, but other timing such as before and/or after the treatment may be used. Also, the examination information output control section 66 may select an image based on image quality. For example, the examination information output control unit 66 can select an image with little blurring or blurring, or an image with brightness within a predetermined range. Further, the examination information output control section 66 may select an image based on a user's operation. The examination information output control unit 66 may select an image in parallel with speech recognition, or may select an image after finishing grouping of speech recognition results.
  • FIG. 16 shows an example in which the end delimiter is set when the image recognition processing unit 63 has finished detecting a specific subject (here, a lesion) (different lesions are detected in periods T5 and T6), and FIG. In the example of FIG.
  • the delimitation detection unit 64 can determine that during periods T7 and T8 when the insertion shape of the scope is similar and the change in the insertion length is stagnant, ⁇ observation or treatment of a specific lesion is in progress'' (the end delimitation is not detected), and that ⁇ observation or treatment of the specific lesion has been completed''("end delimitation has been detected") when the insertion length and/or insertion shape has changed beyond a predetermined criterion (at the end of period T7).
  • the insertion length and/or insertion shape of the endoscope 20 can be measured by connecting a colonoscope shape measuring device to the endoscope system 10, for example.
  • the delimiter detection unit 64 detects the end of detection of a specific subject (for example, at least one of a lesion, a lesion candidate region, a landmark, and a post-treatment region) in time-series endoscopic images (medical images), voice input of a first specific phrase to the microphone 90A (voice recognition device), voice input to the microphone 90A, that the state of no input continues for a predetermined time or longer, voice recognition items (site, diagnosis, findings, treatment in the above example) ), completion of voice input for a specific item (for example, treatment) among voice recognition items, acquisition of information indicating that the insertion length and/or insertion shape of the endoscopic scope has changed beyond a predetermined value, and start or stop of an endoscope system user's operation via an operation device (foot switch 52, etc.) can be detected as an end delimiter. If the detection accuracy of the end delimiter is low with only one piece of information, the delimiter detection unit 64 may combine a specific subject (for example, at least one of a lesion,
  • the end delimiter of grouping is mainly defined, and the case where the end delimiter of the previous period is used as the start delimiter of the next period is described, but an explicit start delimiter of grouping may be used as well as the end delimiter.
  • the delimiter detection unit 64 detects the start delimiter (delimiter) of speech recognition during the imaging (during input) of the endoscopic image.
  • the voice recognition unit 90B may output a message prompting voice input in the same manner as in the example of FIG. 10 when the start delimiter (delimiter) is detected.
  • FIG. 18 is a diagram showing how voice recognition results are grouped in the period from the start delimiter to the end delimiter.
  • the speech recognition unit 90B groups the speech recognition results (“transverse colon”, “Is”, and “CFP”) during a period T9 from when the delimiter detection unit 64 detects the word “start” (an example of the second specific word; start delimiter) at time t1 until it detects the word “registration” (an example of the first specific word; end delimiter) at time t2 later than time t1, and records them in a recording device (recording device 75 and/or flash memory 90H). to record.
  • the word "start” is an example of the second specific word/phrase, and other words may be used.
  • the delimiter detection unit 64 can detect, for example, a determination result (detection result) indicating the start of detection of a specific subject in an endoscopic image as a grouping start delimiter.In this case, the output of the lesion detection unit 63A can be used as the determination result. In addition, the delimitation detection unit 64 may detect the start of the discrimination mode for a specific subject, the start of the output of the discrimination result for the specific subject, the start of the measurement mode for the specific subject, etc.
  • the output of the discrimination unit 63B can be used as the discrimination result
  • an instruction to start taking time-series medical images the input of a wake word (an example of a second specific phrase) to the microphone 90A (audio input device), the operation of the foot switch 52, and the operation of the endoscope system.
  • a user's operation or the like on another operation device may be detected as a start delimiter.
  • the speech recognition unit 90B may set the speech recognition dictionary 90C according to the start delimiter.
  • FIG. 19 is a diagram showing the configuration of an endoscope system 11 according to the second embodiment.
  • 20 is a diagram showing the configuration of an endoscope image generating device 40 according to the second embodiment
  • FIG. 21 is a diagram showing the configuration of an endoscope image processing device 60 according to the second embodiment.
  • the functions of the tablet terminal 90 in the first embodiment are executed by the endoscopic image generation device 40 and the endoscopic image processing device 60 .
  • the user performs voice input via the microphone 51 of the input device 50, and the voice recognition section 62B of the input information acquisition section 62 performs voice recognition using the voice recognition dictionary 62C.
  • FIG. 22 is a diagram showing an example of speech recognition results in the second embodiment, and shows how lesion information input boxes 500 (item information and speech recognition results) are displayed on the screen 70A of the display device 70.
  • FIG. 500 is a diagram showing an example of speech recognition results in the second embodiment, and shows how lesion information input boxes 500 (item information and speech recognition results) are displayed on the screen 70A of the display device 70.
  • Endoscope image diagnosis support system 10 Endoscope system 11 Endoscope system 20 Endoscope 21 Insertion section 21A Tip section 21B Bending section 21C Flexible section 21a Observation window 21b Illumination window 21c Air/water supply nozzle 21d Forceps outlet 22 Operation section 22A Angle knob 22B Air/water supply button 22C Suction button 22D Forceps insertion opening 23 Connection section 2 3A cord 23B light guide connector 23C video connector 24 optical system 25 image sensor 30 light source device 40 endoscope image generation device 41 endoscope control unit 42 light source control unit 43 image generation unit 44 input control unit 45 output control unit 50 input device 51 microphone 52 foot switch 60 endoscope image processing unit 61 endoscope image acquisition unit 62 input information acquisition unit 62A information acquisition unit 62B voice recognition unit 62C Voice recognition dictionary 63 Image recognition processing unit 63A Lesion detection unit 63B Discrimination unit 63C Specific region detection unit 63D Treatment instrument detection unit 63E Hemostasis detection unit 63F Measurement unit 64 Separation detection unit 65

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Endoscopes (AREA)

Abstract

本発明の一つの実施形態は、関連する音声認識の結果を容易に記録することができる内視鏡システム、医療情報処理方法、及び医療情報処理プログラムを提供する。本発明の一の態様に係る内視鏡システムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムであって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。

Description

内視鏡システム、医療情報処理方法、及び医療情報処理プログラム
 本発明は、医療画像に対し音声入力及び音声認識を行う内視鏡システム、医療情報処理方法、及び医療情報処理プログラムに関する。
 医療画像を用いた検査や診断支援を行う技術分野では、ユーザが入力した音声を認識し、認識結果に基づく処理を行うことが知られている。また、音声入力された情報を表示することが知られている(例えば、特許文献1,2を参照)。
特開2013-106752号公報 特開2006-221583号公報
 医療画像を用いた検査で音声認識を行う場合、認識結果を単に表示あるいは記録するだけでは、認識結果の関連性を把握することが困難である。しかしながら、上述した特許文献1,2のような従来の技術は、このような点を十分考慮したものではなかった。
 本発明はこのような事情に鑑みてなされたもので、関連する音声認識の結果を容易に記録することができる内視鏡システム、医療情報処理方法、及び医療情報処理プログラムを提供することを目的とする。
 上述した目的を達成するため、本発明の第1の態様に係る内視鏡システムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムであって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。
 第1の態様によれば、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させるので、関連する音声認識の結果を容易に記録することができユーザは、その記録を参照することにより、関連する音声認識の結果を容易に把握することができる。
 第2の態様に係る内視鏡システムは第1の態様において、プロセッサは、音声認識を開始した場合は、音声認識する項目を示す項目情報と、項目情報に対応する音声認識の結果と、を表示装置に表示させる。
 第3の態様に係る内視鏡システムは第2の態様において、プロセッサは、1組の項目情報に対応する音声認識の結果を1つのグループとして記録装置に記録させる。
 第4の態様に係る内視鏡システムは第2または第3の態様において、プロセッサは、一の区切りを検出してから他の区切りを検出するまで項目情報及び音声認識の結果の表示を継続し、他の区切りを検出した場合は、表示装置における項目情報及び音声認識の結果の表示態様を変更させる。
 第5の態様に係る内視鏡システムは第2から第4の態様のいずれか1つにおいて、プロセッサは、項目情報及び音声認識の結果をリアルタイムに表示装置に表示させる。
 第6の態様に係る内視鏡システムは第2から第5の態様のいずれか1つにおいて、項目情報は、診断、所見、処置、止血のうち少なくとも1つを含む。
 第7の態様に係る内視鏡システムは第1から第6の態様のいずれか1つにおいて、プロセッサは、一の区切りをグループ化の開始区切りとして検出し、他の区切りをグループ化の終了区切りとして検出する。
 第8の態様に係る内視鏡システムは第7の態様において、プロセッサは、終了区切りを検出してから、終了区切りを検出した時刻より後の時刻に終了区切りを再度検出するまでの期間における音声認識の結果をグループ化する。
 第9の態様に係る内視鏡システムは第7または第8の態様において、プロセッサは、医療画像における特定の被写体の検出終了、音声認識装置に対する第1の特定語句の音声入力、音声認識装置に対する音声入力の決められた時間以上の未入力状態継続、音声認識する項目の全てに対する音声入力の完了、音声認識する項目の内の特定の項目に対する音声入力の完了、内視鏡スコープの挿入長及び/または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイスを介した操作の開始または停止のうち少なくとも1つを終了区切りとして検出する。
 第10の態様に係る内視鏡システムは第7から第9の態様のいずれか1つにおいて、プロセッサは、医療画像における特定の被写体の検出開始、音声認識装置に対する第2の特定語句の音声入力、内視鏡システムのユーザによる操作デバイスを介した入力、特定の被写体についての鑑別モードの開始、特定の被写体についての鑑別結果の出力開始、特定の被写体についての計測モードの開始のうち少なくとも1つを開始区切りとして検出する。
 第11の態様に係る内視鏡システムは第9または第10の態様において、プロセッサは、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも1つを特定の被写体と判断する。
 第12の態様に係る内視鏡システムは第9から第11の態様のいずれか1つにおいて、プロセッサは、機械学習により生成された画像認識器を用いて特定の被写体を認識する。
 第13の態様に係る内視鏡システムは第8から第12の態様のいずれか1つにおいて、プロセッサは、開始区切りを検出した場合は、医療画像についての音声入力を促すメッセージを出力装置に出力させる。
 第14の態様に係る内視鏡システムは第1から第13の態様のいずれか1つにおいて、プロセッサは、一の区切りを検出してから他の区切りを検出するまでの期間において内視鏡スコープで撮影した医療画像から選択した画像を、音声の認識結果と共にグループ化して記録させる。
 第15の態様に係る内視鏡システムは第1から第14の態様のいずれか1つにおいて、プロセッサは、時系列の医療画像を構成するフレーム画像から選択した画像、及び/または時系列の医療画像とは別に撮影した撮影画像から選択した画像を、音声認識の結果と共にグループ化して記録させる。
 第16の態様に係る内視鏡システムは第1から第15の態様のいずれか1つにおいて、プロセッサは、時系列の医療画像と音声認識の結果とを別個の表示装置に表示させる。
 上述した目的を達成するため、第17の態様に係る医療情報処理方法は、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムにより実行される医療情報処理方法であって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。第17の態様によれば、第1の態様と同様に、関連する音声認識の結果を容易に記録することができる。なお、第17の態様において、第2から第16の態様と同様の構成を有していてもよい。
 上述した目的を達成するため、本発明の第18の態様に係る医療情報処理プログラムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムに医療情報処理方法を実行させる医療情報処理プログラムであって、医療情報処理方法において、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。第18の態様によれば、第1,第17の態様と同様に、関連する音声認識の結果を容易に記録することができる。なお、第18の態様において、第2から第16の態様と同様の構成を有していてもよい。また、これら態様の医療情報処理プログラムのコンピュータ読み取り可能なコードが記録された非一時的かつ有体の記録媒体も、本発明の態様として挙げることができる。
 本発明に係る内視鏡システム、医療情報処理方法、及び医療情報処理プログラムによれば、関連する音声認識の結果を容易に記録することができる。
図1は、第1の実施形態に係る内視鏡画像診断システムの概略構成を示す図である。 図2は、内視鏡システムの概略構成を示す図である。 図3は、内視鏡の概略構成を示す図である。 図4は、先端部の端面の構成の一例を示す図である。 図5は、内視鏡画像生成装置の主な機能を示すブロック図である。 図6は、内視鏡画像処理装置の主な機能を示すブロック図である。 図7は、画像認識処理部の主な機能を示すブロック図である。 図8は、音声入力を促すメッセージの他の表示例を示す図である。 図9は、タブレット端末の主な機能を示すブロック図である。 図10は、音声入力を促すメッセージの表示例を示す図である。 図11は、音声認識の結果をグループ化する様子を示す図である。 図12は、病変情報入力ボックスの表示例を示す図である。 図13は、病変情報入力ボックスの表示態様を変更する例を示す図である。 図14は、音声認識結果と共に画像をグループ化する様子を示す図である。 図15は、音声認識結果と共に画像をグループ化する様子を示す他の図である。 図16は、病変の検出終了を終了区切りとして音声認識結果をグループ化する様子を示す図である。 図17は、内視鏡スコープの形状及び挿入長の変化を終了区切りとして音声認識結果をグループ化する様子を示す図である。 図18は、特定の語句を開始区切りとして音声認識の結果をグループ化する様子を示す図である。 図19は、第2の実施形態に係る内視鏡システムの概略構成を示す図である。 図20は、第2の実施形態に係る内視鏡画像生成装置の主な機能を示すブロック図である。 図21は、第2の実施形態に係る内視鏡画像処理装置の主な機能を示すブロック図である。 図22は、第2の実施形態において、表示装置に病変情報入力ボックスを表示させる様子を示す図である。
 本発明に係る内視鏡システム、医療情報処理方法、及び医療情報処理プログラムの実施形態について説明する。説明においては、必要に応じて添付図面が参照される。なお、添付図面において、説明の便宜上一部の構成要素の記載を省略する場合がある。
 [内視鏡画像診断支援システム]
 [第1の実施形態]
 本発明を内視鏡画像診断支援システムに適用した場合を例に説明する。内視鏡画像診断支援システムは、内視鏡検査における病変等の検出及び鑑別をサポートするシステムである。以下においては、下部消化管内視鏡検査(大腸検査)における病変等の検出及び鑑別をサポートする内視鏡画像診断支援システムに適用した場合を例に説明する。
 図1は、内視鏡画像診断支援システムの概略構成を示すブロック図である。
 図1に示すように、本実施の形態の内視鏡画像診断支援システム1(内視鏡システム)は、内視鏡システム10(内視鏡システム)、内視鏡情報管理システム100を有する。内視鏡画像診断支援システム1は、さらにユーザ端末を有していてもよい。
 [内視鏡システム]
 図2は、内視鏡システム10の概略構成を示すブロック図である。
 本実施形態の内視鏡システム10は、白色光を用いた観察(白色光観察)の他、特殊光を用いた観察(特殊光観察)が可能なシステムとして構成される。特殊光観察には、狭帯域光観察が含まれる。狭帯域光観察には、BLI観察(Blue laser imaging観察)、NBI観察(Narrow band imaging観察;NBIは登録商標)、LCI観察(Linked Color Imaging観察)等が含まれる。なお、特殊光観察自体は、公知の技術であるので、その詳細についての説明は省略する。
 図2に示すように、本実施の形態の内視鏡システム10は、内視鏡20(内視鏡スコープ)、光源装置30、内視鏡画像生成装置40(プロセッサ)、内視鏡画像処理装置60(プロセッサ)、表示装置70(表示装置)、記録装置75(記録装置)、及び入力装置50、タブレット端末90(プロセッサ、表示装置、記録装置)等を有する。内視鏡20は、挿入部21の先端部21Aに内蔵された光学系24、及びイメージセンサ25を備える。なお、内視鏡画像生成装置40及び内視鏡画像処理装置60は、医療情報処理装置80を構成する。また、内視鏡システム10は、タブレット端末90を介してクラウド200上のデータベース210にアクセスすることができる。
 [内視鏡]
 図3は、内視鏡20の概略構成を示す図である。
 本実施形態の内視鏡20は、下部消化器官用の内視鏡である。図3に示すように、内視鏡20は軟性鏡(電子内視鏡)であり、挿入部21、操作部22及び接続部23を有する。
 挿入部21は、管腔臓器(例えば、大腸)に挿入される部位である。挿入部21は、先端側から順に先端部21A、湾曲部21B、及び軟性部21Cで構成される。
 図4は、先端部の端面の構成の一例を示す図である。
 同図に示すように、先端部21Aの端面には、観察窓21a、照明窓21b、送気送水ノズル21c及び鉗子出口21d等が備えられる。観察窓21aは観察用の窓である。観察窓21aを介して被検体の管腔臓器内が撮影される。撮影は、先端部21A(観察窓21aの部分)に内蔵されたレンズ等の光学系24及びイメージセンサ25(イメージセンサ;図2参照)を介して行われ、被検体の時系列の画像(動画像)及び/または静止画像を撮影することができる。イメージセンサには、たとば、CMOSイメージセンサ(Complementary Metal Oxide Semiconductor image sensor)、CCDイメージセンサ(Charge Coupled Device image sensor)等が使用される。照明窓21bは、照明用の窓である。照明窓21bを介して管腔臓器内に照明光が照射される。送気送水ノズル21cは、洗浄用のノズルである。送気送水ノズル21cから観察窓21aに向けて洗浄用の液体及び乾燥用の気体が噴射される。鉗子出口21d、鉗子等の処置具の出口である。鉗子出口21dは、体液等を吸引する吸引口としても機能する。
 湾曲部21Bは、操作部22に備えられたアングルノブ22Aの操作に応じて湾曲する部位である。湾曲部21Bは、上下左右の4方向に湾曲する。
 軟性部21Cは、湾曲部21Bと操作部22との間に備えられる長尺な部位である。軟性部21Cは、可撓性を有する。
 操作部22は、術者が把持して各種操作を行う部位である。操作部22には、各種操作部材が備えられる。一例として、操作部22には、湾曲部21Bを湾曲操作するためのアングルノブ22A、送気送水の操作を行うための送気送水ボタン22B、吸引操作を行うための吸引ボタン22Cが備えられる。この他、操作部22には、静止画像を撮影するための操作部材(シャッタボタン)、観察モードを切り替えるための操作部材、各種支援機能のON、OFFを切り替えるための操作部材等が備えられる。また、操作部22には、鉗子等の処置具を挿入するための鉗子挿入口22Dが備えられる。鉗子挿入口22Dから挿入された処置具は、挿入部21の先端の鉗子出口21d(図4参照)から繰り出される。一例として、処置具には、生検鉗子、スネア等が含まれる。
 接続部23は、内視鏡20を光源装置30及び内視鏡画像生成装置40等に接続するための部位である。接続部23は、操作部22から延びるコード23Aと、そのコード23Aの先端に備えられるライトガイドコネクタ23B及びビデオコネクタ23C等とで構成される。ライトガイドコネクタ23Bは、光源装置30に接続するためのコネクタである。ビデオコネクタ23Cは、内視鏡画像生成装置40に接続するためのコネクタである。
 [光源装置]
 光源装置30は、照明光を生成する。上記のように、本実施の形態の内視鏡システム10は、通常の白色光観察の他に特殊光観察が可能なシステムとして構成される。このため、光源装置30は、通常の白色光の他、特殊光観察に対応した光(たとえば、狭帯域光)を生成可能に構成される。なお、上記のように、特殊光観察自体は、公知の技術であるので、その光の生成等についての説明は省略する。
 [医療情報処理装置]
 [内視鏡画像生成装置]
 内視鏡画像生成装置40(プロセッサ)は、内視鏡画像処理装置60(プロセッサ)と共に、内視鏡システム10全体の動作を統括制御する。内視鏡画像生成装置40は、そのハードウェア構成として、プロセッサ、主記憶部(メモリ)、補助記憶部(メモリ)及び通信部等を備える。すなわち、内視鏡画像生成装置40は、そのハードウェア構成として、いわゆるコンピュータの構成を有する。プロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等で構成される。主記憶部は、たとえば、RAM(Random Access Memory)等で構成される。補助記憶部は、たとえば、フラッシュメモリやROM(Read Only Memory)、EEPROM(Electronically Erasable and Programmable Read Only Memory)等の非一時的かつ有体の記録媒体で構成される。
 図5は、内視鏡画像生成装置40の主な機能を示すブロック図である。
 同図に示すように、内視鏡画像生成装置40は、内視鏡制御部41、光源制御部42、画像生成部43、入力制御部44及び出力制御部45等の機能を有する。プロセッサが実行する各種プログラム(本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい)、及び、制御等に必要な各種データ等が上述した補助記憶部に格納され、内視鏡画像生成装置40の各機能は、プロセッサがそれらのプログラムを実行することにより実現される。内視鏡画像生成装置40のプロセッサは、本発明に係る内視鏡システム、医療情報処理装置におけるプロセッサの一例である。
 内視鏡制御部41は、内視鏡20を制御する。内視鏡20の制御には、イメージセンサ25の駆動制御、送気送水の制御、吸引の制御等が含まれる。
 光源制御部42は、光源装置30を制御する。光源装置30の制御には、光源の発光制御等が含まれる。
 画像生成部43は、内視鏡20のイメージセンサ25から出力される信号に基づいて撮影画像(内視鏡画像、医療画像)を生成する。画像生成部43は、撮影画像として静止画像及び/または動画像(時系列の医療画像)を生成することができる。画像生成部43は、生成した画像に各種画像処理を施してもよい。
 入力制御部44は、入力装置50を介した操作の入力及び各種情報の入力を受け付ける。
 出力制御部45は、内視鏡画像処理装置60への情報の出力を制御する。内視鏡画像処理装置60に出力する情報には、撮影により得られた内視鏡画像の他、入力装置50から入力された各種操作情報等が含まれる。
 [入力装置]
 入力装置50は、表示装置70と共に内視鏡システム10におけるユーザインタフェース(user interface)を構成する。入力装置50には、フットスイッチ52(操作デバイス)が含まれる。フットスイッチ52は術者の足元に置かれて足で操作される操作デバイスであり、ペダルを踏み込むことで、操作信号(例えば、音声認識の候補を選択する信号や、音声認識結果のグループ化の開始あるいは終了の区切りを示す信号)が出力される。なお、本態様ではフットスイッチ52は内視鏡画像生成装置40の入力制御部44により制御されるが、このような態様に限らず、内視鏡画像処理装置60や表示装置70等を介してフットスイッチ52を制御してもよい。また、内視鏡20の操作部22において、フットスイッチ52と同等の機能を有する操作デバイス(ボタン、スイッチ等)を設けてもよい。
 この他、入力装置50には、操作デバイスとしてキーボード、マウス、タッチパネル、マイク、視線入力装置等の公知の入力デバイスを含めることができる。
 [内視鏡画像処理装置]
 内視鏡画像処理装置60は、そのハードウェア構成として、プロセッサ、主記憶部、補助記憶部、通信部等を備える。すなわち、内視鏡画像処理装置60は、そのハードウェア構成として、いわゆるコンピュータの構成を有する。プロセッサは、たとえば、CPU、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等で構成される。内視鏡画像処理装置60のプロセッサは、本発明に係る内視鏡システム、医療情報処理装置におけるプロセッサの一例である。なお、内視鏡画像生成装置40のプロセッサと内視鏡画像処理装置60のプロセッサとで、本発明に係る内視鏡システムや医療情報処理装置におけるプロセッサの機能を分担してもよい。例えば、内視鏡画像生成装置40は主として内視鏡画像を生成する「内視鏡プロセッサ」の機能を備え、内視鏡画像処理装置60は主として内視鏡画像に画像処理を施す「CADボックス(CAD:Computer Aided Diagnosis)」としての機能を備える態様を採用することができる。しかしながら、本発明では、このような機能の分担と異なる態様を採用してもよい。
 主記憶部は、たとえば、RAM等のメモリで構成される。補助記憶部は、たとえば、フラッシュメモリ、ROM、EEPROM等の非一時的かつ有体の記録媒体(メモリ)で構成され、プロセッサが実行する各種プログラム(本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい)、及び、制御に必要な各種データ等が格納される。通信部は、たとえば、ネットワークに接続可能な通信インタフェースで構成される。内視鏡画像処理装置60は、通信部を介して内視鏡情報管理システム100と通信可能に接続される。
 図6は、内視鏡画像処理装置60の主な機能を示すブロック図である。
 同図に示すように、内視鏡画像処理装置60は、主として、内視鏡画像取得部61、入力情報取得部62、画像認識処理部63、区切り検出部64、表示制御部65、及び検査情報出力制御部66等の機能を有する。これらの機能は、上述したプロセッサが補助記憶部等に格納されたプログラム(本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい)を実行することにより実現される。
 [内視鏡画像取得部]
 内視鏡画像取得部61は、内視鏡画像生成装置40から内視鏡画像を取得する。画像の取得は、リアルタイムに行うことができる。すなわち、被写体の時系列の医療画像をリアルタイムに順次取得(順次入力)することができる。
 [入力情報取得部]
 入力情報取得部62(プロセッサ)は、入力装置50及び内視鏡20を介して入力された情報を取得する。入力情報取得部62は、主として音声情報以外の入力情報を取得する情報取得部62Aを備える。
 入力装置50を介して入力情報取得部62に入力される情報には、フットスイッチ52、タブレット端末90のマイク90A、あるいは図示せぬキーボードやマウス等を介して入力される情報(音声認識結果、区切りを示す信号等)が含まれる。また、内視鏡20を介して入力される情報には、内視鏡画像(動画像)の撮影開始指示、静止画像の撮影指示等の情報が含まれる。後述するように、本実施形態において、ユーザはマイク90Aやフットスイッチ52を介して、音声認識に対する区切りを示す信号の入力や、音声認識候補の選択操作等を行うことができる。入力情報取得部62は、内視鏡画像生成装置40を介して、フットスイッチ52の操作情報を取得する。
 [画像認識処理部]
 画像認識処理部63(プロセッサ)は、内視鏡画像取得部61で取得される内視鏡画像に対し、画像認識を行う。画像認識処理部63は、リアルタイムに(画像の取得から認識までの時間遅れなしに)画像認識を行うことができる。
 図7は、画像認識処理部63の主な機能を示すブロック図である。同図に示すように、画像認識処理部63は、病変部検出部63A、鑑別部63B、特定領域検出部63C、処置具検出部63D、止血具検出部63E、及び計測部63F等の機能を有する。これら各部は、「内視鏡画像に特定の被写体が含まれているか」の判定に用いることができる。「特定の被写体」は、例えば病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも1つであるが、処置具や止血具を含んでいてもよい。また、「特定の被写体」は、以下に説明するように画像認識処理部63の各部によって違っていてもよい。
 病変部検出部63Aは、内視鏡画像からポリープ等の病変部(病変;「特定の被写体」の一例)を検出する。病変部を検出する処理には、病変部であることが確定的な部分を検出する処理の他、病変の可能性がある部分(良性の腫瘍または異形成等;病変候補領域)を検出する処理、病変を処置した後の領域(処置後領域)、及び、直接的または間接的に病変に関連する可能性がある特徴を有する部分(発赤等)を認識する処理等が含まれる。
 鑑別部63Bは、病変部検出部63Aが「内視鏡画像に病変部(特定の被写体)が含まれている」と判定した場合に、病変部検出部63Aで検出された病変部について鑑別処理を行う(鑑別モードの開始)。本実施形態において、鑑別部63Bは、病変部検出部63Aで検出されたポリープ等の病変部について、腫瘍性(NEOPLASTIC)もしくは非腫瘍性(HYPERPLASTIC)の鑑別処理を行う。なお、鑑別部63Bは、あらかじめ決められた基準を満たす場合に鑑別結果の出力を開始するように構成することができる。「あらかじめ決められた基準」として、例えば、「鑑別結果の信頼度(内視鏡画像の露出、合焦度合い、ぶれ等の条件に依存する)やその統計値(決められた期間内での最大または最小、平均等)がしきい値以上である場合」を採用することができるが、他の基準を用いてもよい。鑑別モードの開始及び鑑別結果の出力開始は、音声認識の結果をグループ化する際の開始区切り(一の区切り、他の区切り)として用いることができる。
 特定領域検出部63Cは、内視鏡画像から管腔臓器内の特定領域(ランドマーク)を検出する処理を行う。たとえば、大腸の回盲部を検出する処理等を行う。大腸は管腔臓器の一例であり、回盲部は特定領域の一例である。特定領域検出部63Cは、例えば、肝湾曲部(右結腸部)、脾湾曲部(左結腸部)、直腸S状部等を検出してもよい。また、特定領域検出部63Cは、複数の特定領域を検出してもよい。
 処置具検出部63Dは、内視鏡画像から画像内に現れる処置具を検出し、その種類を判別する処理を行う。処置具検出部63Dは、生検鉗子、スネア等、複数の種類の処置具を検出するように構成することができる。同様に、止血具検出部63Eは、止血クリップ等の止血具を検出し、その種類を判別する処理を行う。処置具検出部63Dと止血具検出部63Eを1つの画像認識器で構成してもよい。
 計測部63Fは、計測モードにおいて、病変、病変候補領域、特定領域、処置後領域等の計測(形状、寸法等の測定)を行う。
 画像認識処理部63の各部(病変部検出部63A、鑑別部63B、特定領域検出部63C、処置具検出部63D、止血具検出部63E、及び計測部63F等)は、機械学習により生成された画像認識器(学習済みモデル)を用いて構成することができる。具体的には、上述の各部は、ニューラルネットワーク(Neural Network:NN)、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、アダブースト(AdaBoost)、ランダムフォレスト(Random Forest)等の機械学習アルゴリズム(これらの派生型でもよい)を用いて学習した画像認識器(学習済みモデル)で構成することができる。また、鑑別部63Bについて上述したように、これらの各部は、必要に応じてネットワークの層構成を設定すること等により、最終的な出力(鑑別結果や処置具の種類等)の信頼度を合わせて出力することができる。また、上述の各部は、内視鏡画像の全フレームについて画像認識を行ってもよいし、一部のフレームについて間欠的に画像認識を行ってもよい。
 内視鏡システム10では、これらの各部から内視鏡画像の認識結果が出力されることや、あらかじめ決められた基準(信頼度のしきい値等)を満たす認識結果が出力されることを音声認識の開始区切りあるいは終了区切り(音声入力のトリガ)としてもよいし、それらの出力がされる期間を、音声認識を実行する期間としてもよい。
 また、画像認識処理部63を構成する各部を画像認識器(学習済みモデル)で構成する代わりに、各部の一部または全部について、内視鏡画像から特徴量を算出し、算出した特徴量を用いて検出等を行う構成を採用することもできる。
 [区切り検出部]
 区切り検出部64(プロセッサ)は、音声認識の結果に対する区切り(音声認識の結果をグループ化する際の終了区切り;一の区切り、他の区切り)を検出する。具体的には、区切り検出部64は、内視鏡画像(医療画像)における特定の被写体の検出終了、マイク90A(音声認識装置)に対する第1の特定語句の音声入力、マイク90Aに対する音声入力の決められた時間以上の未入力状態継続、音声認識する項目の全てに対する音声入力の完了、音声認識する項目の内の特定の項目に対する音声入力の完了、内視鏡スコープの挿入長及び/または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイス(フットスイッチ52、操作部22に設けられた操作部材等)を介した操作の開始または停止のうち少なくとも1つを、終了区切りとして認識することができる。これらを区切りとした音声認識については、詳細を後述する。
 なお、区切り検出部64は、例えば病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも1つを「特定の被写体」と判断することができるが、この他に処置具や止血具を「特定の被写体」と認識してもよい。また、区切り検出部64は、例えば内視鏡システム10に接続された大腸内視鏡形状測定装置により、内視鏡スコープの挿入長及び/または挿入形状を計測することができる。
 [表示制御部]
 表示制御部65(プロセッサ)は、表示装置70の表示を制御する。以下、表示制御部65が行う主な表示制御について説明する。
 表示制御部65は、検査中(撮影中)、内視鏡20で撮影された画像(内視鏡画像)を表示装置70にリアルタイムに(時間遅れなしに)表示させる。図8は、検査中の画面表示の一例を示す図である。同図に示すように、画面70A内に設定された主表示領域A1に内視鏡画像I(ライブビュー)が表示される。画面70Aには、更に副表示領域A2が設定され、検査に関する各種情報が表示される。図8に示す例では、患者に関する情報Ip、及び、検査中に撮影された内視鏡画像の静止画像Isを副表示領域A2に表示した場合の例を示している。静止画像Isは、たとえば、画面70Aの上から下に向かって撮影された順に表示される。なお、表示制御部65は、病変等の特定の被写体が検出されている場合に、その被写体をバウンディングボックス等により強調表示してもよい。
 また、表示制御部65は、音声認識の状態を示すアイコン300、撮影中の部位を示すアイコン320、撮影対象の部位(上行結腸、横行結腸、下行結腸等)及び音声認識の結果をリアルタイムに(時間遅れなしに)文字表示する表示領域340を画面70Aに表示させることができる。また、表示制御部65は、音声認識が可能になった場合に音声入力を促すメッセージを画面70Aに表示させてもよい。
 表示制御部65は、内視鏡画像からの画像認識、ユーザによる操作デバイスを介した入力、内視鏡システム10に接続された外部装置(例えば、内視鏡挿入形状観測装置)等により部位の情報を取得し、表示することができる。なお、表示制御部65はタブレット端末90のディスプレイ90Eや他の表示装置に各種の情報を表示させてもよい。
 [検査情報出力制御部]
 検査情報出力制御部66は、検査情報を記録装置75及び/または内視鏡情報管理システム100に出力する。また、検査情報出力制御部66は、検査情報をフラッシュメモリ90Hやデータベース210に出力してもよい。検査情報は、例えば検査中に撮影された内視鏡画像、特定の被写体についての判定の結果、音声認識の結果、検査中に入力された部位や処置名、処置具の情報等を含んでいてよい。後述するように、検査情報出力制御部66は、これらの情報をグループ化して出力することができる。また、検査情報出力制御部66は、検査情報を、例えば病変ないし検体採取ごとに出力することができる。
 検査情報出力制御部66は、例えば病変部等を撮影した内視鏡画像に対し、音声認識の結果や部位の情報を関連付けて出力することができる。また、処置が行われた場合には、検査情報出力制御部66は、選択された処置名の情報及び検出された処置具の情報を、内視鏡画像及び部位の情報、音声認識の結果等に関連付けて出力することもできる。また、検査情報出力制御部66は、病変部等とは別に撮影された内視鏡画像を、適時、記録装置75及び/または内視鏡情報管理システム100に出力することができる。検査情報出力制御部66は、内視鏡画像に撮影日時の情報を付加して出力してもよい。
 検査情報出力制御部66は、後述するように、各情報を互いに関連付け、音声認識の区切りでグループ化して検査情報を出力することができる。
 [記録装置]
 記録装置75(記録装置)は、各種の光磁気記録装置や半導体メモリ、及びその制御装置を備え、内視鏡画像(動画像、静止画像)、画像認識の結果、音声認識の結果、検査情報、レポート作成支援情報等を記録することができる。これらの情報は、内視鏡画像生成装置40や内視鏡画像処理装置60の副記憶部、あるいは内視鏡情報管理システム100が備える記録装置に記録してもよいし、タブレット端末90のメモリやデータベース210に記録してもよい。
 [タブレット端末]
 図9は、タブレット端末90の構成を示す図である。同図に示すように、タブレット端末90はマイク90A(音声入力装置)と、マイク90Aに入力された音声を認識する音声認識部90Bと、音声認識に用いられる音声認識辞書90Cと、を備える。音声認識辞書62Cは、内容が異なる複数の辞書(例えば、部位情報、所見情報、処置情報、及び止血情報に関する辞書)を含んでいてもよい。また、タブレット端末90は、後述する病変情報入力ボックス(項目情報、及び項目情報に対応する音声認識の結果;図12~13を参照)等の表示制御を行う表示制御部90D及び病変情報入力ボックス等が表示されるディスプレイ90E(表示装置)、スピーカー90F(出力装置)、及び通信制御部90Gを備え、通信制御部90Gを介してクラウド200上のデータベース210にアクセスすることができる。
 音声認識部90Bは音声認識辞書90Cを参照して音声認識を行う。音声認識辞書90Cは特徴(例えば、対象とする部位)の異なる複数の辞書を含んでいてよく、画像認識処理部63が内視鏡画像の撮影部位を認識し、その認識結果に基づいて音声認識部90Bが適切な音声認識辞書を選択してもよい。
 なお、図9では、タブレット端末90がマイク90A及びスピーカー90Fを備える場合について説明しているが、これらのデバイスに加えて、またはこれらに代えて、外付けのマイク及び/またはスピーカーや、マイク及びスピーカーを備えるヘッドセット(音声入力装置、出力装置)を用いてもよい。
 また、タブレット端末90は、音声認識のインタフェースとして機能する。例えばユーザ毎の音声認識のカスタマイズ設定をフラッシュメモリ90H等に保存しておきユーザの操作に応じてディスプレイ90Eに表示することや、使用法のガイダンスをディスプレイに表示すること、あるいはタブレット端末90用のアプリケーション(プログラム)の操作履歴を収集、表示することができる。また、タブレット端末90は、通信制御部90Gを介してインターネットやクラウドに接続してアプリケーションやデータを取得あるいは更新することができる。音声認識部90Bにおいて、ユーザの発話の特徴に合わせて音声認識の学習を行ってもよい。
 上述したタブレット端末90の機能は、CPU等のプロセッサを用いて実現することができる。プロセッサによる処理の際にはフラッシュメモリ90H(非一時的かつ有体な記録媒体の一例)に記憶されたプログラム(本発明に係る医療情報処理プログラムまたはその一部(主として音声認識に係る部分))やデータが参照され、RAM90Iが一時的記憶領域あるいは作業領域として用いられる。
 第1の実施形態に係る内視鏡システム10では、タブレット端末90に代えて、またはこれに加えて、デスクトップ型またはノートブック型のコンピュータや、スマートフォン等のデバイスを用いてもよい。
 [内視鏡システムにおける機能の分担]
 なお、「内視鏡システム10で実行する機能を内視鏡画像生成装置40、内視鏡画像処理装置60、タブレット端末90でどのように分担するか」は、上述した例に限定されない。例えば、内視鏡画像生成装置40や内視鏡画像処理装置60の機能として上述した内容をタブレット端末90で実行してもよいし、その逆に、タブレット端末90の機能として上述した内容を内視鏡画像生成装置40や内視鏡画像処理装置60で実行してもよい。また、後述する第2の実施形態のように、タブレット端末90を設けず全ての機能を内視鏡画像生成装置40及び内視鏡画像処理装置60で実行してもよい。
 なお、第1の実施形態ではマイク90Aを用いて音声入力を行う場合について説明するが、マイク90Aに代えて、またはマイク90Aに加えて入力装置50がマイクを備えていてもよい(後述する第2の実施形態、図20を参照)。
 [内視鏡システムにおける音声認識]
 上述した構成の内視鏡システム10における音声認識及びその結果の記録について、以下に説明する。
 音声入力及び音声認識が可能になったら、あるいは時系列の内視鏡画像の撮影が始まったら、区切り検出部64(プロセッサ)はこれらをグループ化の開始区切り(一の区切り)として検出することができる。また、これらの検出に対して、表示制御部90D(プロセッサ)は、内視鏡画像についての音声入力を促すメッセージを出力装置に出力させることができる。具体的には、表示制御部90Dは、タブレット端末90のディスプレイ90E(出力装置)に図10のようなメッセージを表示してもよいし、スピーカー72(出力装置)あるいはスピーカー90F(出力装置)から音声メッセージを出力してもよい。このようなメッセージの出力により、ユーザは、音声認識が可能であることを容易に把握することができる。
 なお、音声認識部90Bは、メッセージ出力後に音声認識及びそのグループ化を開始してもよいし、内視鏡画像(時系列の医療画像)の撮影が始まったら自動的に音声認識及びそのグループ化を開始してもよい(この場合、区切り検出部64は、撮影開始を「グループ化の開始区切り」として検出することができる)。
 [音声認識結果のグループ化]
 区切り検出部64(プロセッサ)は、音声認識の結果に対する区切り(音声認識の終了区切り;区切り)を検出する。検査情報出力制御部66(プロセッサ)は、区切り検出部64が開始区切り(一の区切り)を検出してから、その開始区切りを検出した時刻より後の時刻において、開始区切りに対応する終了区切り(他の区切り)を再度検出した場合は、開始区切りから終了区切りまでの期間における音声認識の結果をグループ化して記録装置75及び/またはフラッシュメモリ90H(記録装置)に記録させる。
 図11は、音声認識の結果をグループ化して記録する様子を示す図である。同図は、「登録」の語(第1の特定語句)の音声入力及び音声認識を終了区切り(区切り)としてグループ化する例を示しており、検査情報出力制御部66は、期間T1、期間T2における音声認識の結果をそれぞれ1つのグループとして記録する。「登録」の後は第1の特定語句の一例であり、「確定」等他の語句を用いてもよい。「登録」の語それ自体はグループ化しなくてよい。
 なお、「グループ化」の具体的態様には、複数の音声認識結果を1つのファイルやフォルダに記録すること(後述する病変情報入力ボックス単位で記録してもよい)、音声認識結果に他の音声認識結果のリンクを付加すること等が含まれる。
 図11の例では、期間T1、期間T2は、それぞれ別の病変についての音声認識期間である。また、以降の図においてマイクの図形は音声入力及び音声認識のタイミングを示し、音声入力に応じて音声認識も行われるものとする。
 期間T1に関しては、時刻t1において、撮影が開始したことや音声入力が可能な状態になったこと等により開始区切り(一の区切り)が検出されているものとする。また、開始区切りが検出された時刻t1より後の時刻t2において、当該開始区切りに対応する終了区切り(「登録」の後の音声入力;一の区切りに対応する他の区切り)が検出されている。また、期間T2に関しては、期間T1の時刻t2で終了区切りが検出されてから、時刻t2より後の時刻t3に終了区切り(「登録」の語)が再度検出されており、時刻t2から時刻t3までの期間における音声認識の結果がグループ化される。すなわち、図11の例では、時刻t2における「登録」の語の音声入力は期間T1の終了区切りであり、かつ期間T2の開始区切りでもある。
 第1の実施形態によれば、音声認識結果のグループ化により、関連する音声認識の結果を容易に把握することができる。このようにグループ化された音声認識結果は、レポート作成等に活用することができる。
 [病変情報入力ボックスの表示]
 表示制御部90D(プロセッサ)は、音声認識を開始した場合は、図12に例示するように、病変情報入力ボックス(音声認識する項目を示す項目情報)及び項目情報に対応する音声認識の結果をディスプレイ90E(表示装置)に表示させる。図12の(a)部分は病変情報入力ボックス500を表示した例(未入力状態)であり、病変情報入力ボックス500は項目情報を示す領域500Aと、項目情報に対応する音声認識の結果を示す領域500Bとから構成される。図12の例において、項目情報は診断、所見、処置、止血(1組の項目情報)を含んでいる。このように、項目情報は診断、所見、処置、止血のうち少なくとも1つを含むことが好ましい。また、図12の(b)部分は項目情報のうち部位、診断について音声入力及び音声認識された状態を示す。このような病変情報入力ボックスにより、ユーザは音声認識の対象となる項目及びその入力状態を容易に把握することができる。
 図12の(c)部分は未入力の項目を表示する領域501をグレーアウト(識別表示の一態様)した例を示す。このように識別表示を行うことにより、ユーザは未入力の項目を容易に把握することができる。なお、表示制御部90Dは、病変情報入力ボックス500(項目情報)及び音声認識結果の表示をリアルタイムに(時間遅れなしに)行うことができる。
 なお、表示制御部90Dは、音声認識の結果を、時系列の内視鏡画像を表示する表示装置とは別個の表示装置に表示させることができる。
 [病変情報入力ボックスの表示態様の変更]
 上述した病変情報入力ボックスは病変(注目領域の一例)ごとに表示、入力され、検査において複数の病変が発見された場合は、それら病変に対応して複数の病変情報入力ボックスが表示、入力される。このような場合、表示制御部90Dは、グループ化の終了区切り(区切り)を検出した場合は、ディスプレイ90E(表示装置)における項目情報及び音声認識の結果の表示態様を変更させる(例えば、識別力を低下させる)ことができる。図13は、そのような表示態様の変更の例を示す図である。図13の(a)部分に示す例では、表示制御部90Dは、グループ化が確定した病変情報入力ボックス502について、枠線を点線化すると共にグレーアウトし、同図の(b)部分に示す例では、グループ化が確定した病変情報入力ボックス506をさらにサムネイル画像化して表示している。これらの態様の他に、表示制御部90Dは、グループ化が確定した病変情報入力ボックスをアイコン化して表示してもよいし、消去してもよい。このような表示態様の変更により、ユーザは現在入力対象となっている病変情報入力ボックスを容易に把握することができる。
 [音声認識結果及び画像のグループ化]
 本発明では、グループ化の終了区切り(区切り)を検出するまでの期間において内視鏡スコープで撮影した医療画像から選択した画像を、音声認識結果と共にグループ化して記録装置(記録装置75、フラッシュメモリ90H等)に記録させることができる。図14は、画像もグループ化する様子を示す図である。同図に示す例では、検査情報出力制御部66は、期間T3において撮影した3枚の静止画像(時系列の医療画像とは別に撮影した撮影画像;図14,15においてカメラの記号で示す)の内から静止画像600Aを選択して、音声認識結果と共にグループ化する。なお、時刻t1における「登録」の語の音声入力が期間T3の終了区切りであり、前の期間における終了区切り等を期間T3の開始区切りとすることができる(後述する図15,16,17についても同様である)。
 図15は、画像もグループ化する様子を示す他の図である。同図に示す例では、検査情報出力制御部66は、期間T4において撮影した時系列の医療画像を構成するフレーム画像から画像602A,602Bを選択して、音声認識結果と共にグループ化する。
 検査情報出力制御部66は、音声認識結果と共にグループ化する画像を、決められた条件に基づいて自動的に(ユーザ操作によらずに)選択することができる。例えば、検査情報出力制御部66は、決められたタイミングで撮影した静止画像を選択することができる。「決められたタイミングで撮影した静止画像」は、図14の例では期間T3で最初に撮影した静止画像であるが、例えば処置の前及び/または後等、他のタイミングでもよい。また、検査情報出力制御部66は、画質に基づいて画像を選択してもよい。例えば、検査情報出力制御部66は、ボケやブレの少ない画像、明るさが決められた範囲内である画像を選択することができる。また、検査情報出力制御部66は、ユーザの操作に基づいて画像を選択してもよい。検査情報出力制御部66は、音声認識と並行して画像を選択してもよいし、音声認識結果のグループ化が終了してから画像を選択してもよい。
 [グループ化終了区切りのバリエーション]
 上述の例ではグループ化の特定語句(第1の特定語句)が音声認識されたことをグループ化の終了区切り(区切り)とする場合について説明しているが、区切り検出部64(プロセッサ)は、他の情報を終了区切りとして検出することもできる。図16は画像認識処理部63が特定の被写体(ここでは病変)の検出を終了したことを終了区切りとする例であり(期間T5と期間T6では別の病変が検出されている)、図17は内視鏡20(内視鏡スコープ)の挿入長及び/または挿入形状に基づく終了区切りを用いる例である。図17の例において、区切り検出部64は、例えばスコープの挿入形状が類似で挿入長の変化が停滞している期間T7及び期間T8は「特定の病変についての観察や処置の最中である」(終了区切りを検出していない)と判断して、挿入長及び/または挿入形状が決められた基準以上を超えて変化した場合(期間T7の終了時)は「特定の病変についての観察や処置が終了した」(「終了区切りを検出した」)と判断することができる。なお、内視鏡20の挿入長及び/または挿入形状は、例えば大腸内視鏡形状測定装置を内視鏡システム10に接続することで測定することができる。
 図16,17について上述した例では、ユーザは図11について上述したような「特定の語句の音声入力」を行う必要はない。
 図11,16,17について上述した例も含め、区切り検出部64は、時系列の内視鏡画像(医療画像)における特定の被写体(例えば、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも1つ)の検出終了、マイク90A(音声認識装置)に対する第1の特定語句の音声入力、マイク90Aに対し音声入力が決められた時間以上未入力の状態が継続していること、音声認識する項目(上述の例では部位、診断、所見、処置)の全てに対する音声入力の完了、音声認識する項目の内の特定の項目(例えば、処置)に対する音声入力の完了、内視鏡スコープの挿入長及び/または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイス(フットスイッチ52等)を介した操作の開始または停止のうち少なくとも1つを終了区切りとして検出することができる。区切り検出部64は一つの情報だけでは終了区切りの検出精度が低い場合に、これらの情報のうち複数を組み合わせて終了区切りとして検出精度を高めてもよい。
 [グループ化の開始区切り]
 上述した態様では主としてグループ化の終了区切りについて規定しており、前の期間の終了区切りを次の期間の開始区切りとする場合について説明しているが、終了区切りと同様に、明示的なグループ化の開始区切りを用いてもよい。この場合、区切り検出部64は内視鏡画像の撮影中(入力中)に音声認識の開始区切り(区切り)を検出する。音声認識部90Bは、開始区切り(区切り)を検出した場合に、図10の例と同様に音声入力を促すメッセージを出力してもよい。
 図18は、開始区切りから終了区切りまでの期間における音声認識結果をグループ化する様子を示す図である。この例では、音声認識部90Bは、区切り検出部64が時刻t1で「開始」の語(第2の特定語句の一例;開始区切り)を検出してから、時刻t1より後の時刻t2において「登録」の語(第1の特定語句の一例;終了区切り)を検出するまでの期間T9における音声認識結果(“横行結腸”、“Is”、“CFP”)をグループ化して記録装置(記録装置75及び/またはフラッシュメモリ90H)に記録させる。なお、「開始」の語は第2の特定語句の一例であり、他の語を用いてもよい。
 区切り検出部64は、特定語句の音声入力の他に、例えば内視鏡画像における特定の被写体の検出開始を示す判定結果(検出結果)をグループ化の開始区切りとして検出することができ、この場合、病変部検出部63Aの出力を判定結果とすることができる。また、区切り検出部64は、特定の被写体についての鑑別モードの開始、特定の被写体に対する鑑別結果の出力開始、特定の被写体についての計測モードの開始等を開始区切りとして検出してもよいし(この場合、鑑別結果として鑑別部63Bの出力を用いることができる)、時系列の医療画像の撮影開始指示、マイク90A(音声入力装置)に対するウェイクワード(第2の特定語句の一例)の入力、フットスイッチ52の操作、内視鏡システムに接続された他の操作デバイス(例えば、大腸内視鏡形状測定装置等)に対するユーザの操作等を開始区切りとして検出してもよい。音声認識部90Bは、開始区切りに応じた音声認識辞書90Cを設定してもよい。
 [第2の実施形態]
 図19は、第2の実施形態に係る内視鏡システム11の構成を示す図である。また、図20は第2の実施形態における内視鏡画像生成装置40の構成を示す図であり、図21は第2の実施形態における内視鏡画像処理装置60の構成を示す図である。これらの図に示すように、第2の実施形態では、第1の実施形態におけるタブレット端末90の機能を内視鏡画像生成装置40及び内視鏡画像処理装置60で実行する。ユーザは、入力装置50のマイク51を介して音声入力を行い、入力情報取得部62の音声認識部62Bが音声認識辞書62Cを用いて音声認識を行う。
 第2の実施形態において、音声認識結果のグループ化、あるいは音声認識結果と画像とのグループ化は第1の実施形態と同様に行うことができ、これによりユーザは関連する音声認識の結果を容易に把握することができる。図22は第2の実施形態における音声認識結果の例を示す図であり、表示装置70の画面70Aに病変情報入力ボックス500(項目情報及び音声認識結果)を表示した様子を示している。
 [上部消化管用内視鏡への適用]
 上述の実施形態では、本発明を下部消化管用の内視鏡システムに適用した場合について説明したが、本発明は上部消化管用内視鏡にも適用することができる。
 以上で本発明の実施形態について説明してきたが、本発明は上述した態様に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能である。
1   内視鏡画像診断支援システム
10  内視鏡システム
11  内視鏡システム
20  内視鏡
21  挿入部
21A 先端部
21B 湾曲部
21C 軟性部
21a 観察窓
21b 照明窓
21c 送気送水ノズル
21d 鉗子出口
22  操作部
22A アングルノブ
22B 送気送水ボタン
22C 吸引ボタン
22D 鉗子挿入口
23  接続部
23A コード
23B ライトガイドコネクタ
23C ビデオコネクタ
24  光学系
25  イメージセンサ
30  光源装置
40  内視鏡画像生成装置
41  内視鏡制御部
42  光源制御部
43  画像生成部
44  入力制御部
45  出力制御部
50  入力装置
51  マイク
52  フットスイッチ
60  内視鏡画像処理装置
61  内視鏡画像取得部
62  入力情報取得部
62A 情報取得部
62B 音声認識部
62C 音声認識辞書
63  画像認識処理部
63A 病変部検出部
63B 鑑別部
63C 特定領域検出部
63D 処置具検出部
63E 止血具検出部
63F 計測部
64  区切り検出部
65  表示制御部
66  検査情報出力制御部
70  表示装置
70A 画面
72  スピーカー
75  記録装置
80  医療情報処理装置
90  タブレット端末
90A マイク
90B 音声認識部
90C 音声認識辞書
90D 表示制御部
90E ディスプレイ
90F スピーカー
90G 通信制御部
90H フラッシュメモリ
90I RAM
100 内視鏡情報管理システム
200 クラウド
210 データベース
300 アイコン
320 アイコン
340 表示領域
500 病変情報入力ボックス
500A 領域
500B 領域
501  領域
502  病変情報入力ボックス
506  病変情報入力ボックス
600A 静止画像
602A 画像
602B 画像
A1   主表示領域
A2   副表示領域
I    内視鏡画像
Ip   情報
Is   静止画像
t1   時刻
t2   時刻
t3   時刻
T1   期間
T2   期間
T3   期間
T4   期間
T5   期間
T6   期間
T7   期間
T8   期間
T9   期間

Claims (19)

  1.  音声の入力を受け付けて音声認識を行う音声認識装置と、
     被検体の医療画像を取得する内視鏡スコープと、
     プロセッサと、
     を備える内視鏡システムであって、
     前記プロセッサは、
     前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
     前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
     一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる内視鏡システム。
  2.  前記プロセッサは、
     前記音声認識を開始した場合は、音声認識する項目を示す項目情報と、前記項目情報に対応する音声認識の結果と、を表示装置に表示させる請求項1に記載の内視鏡システム。
  3.  前記プロセッサは、1組の前記項目情報に対応する前記音声認識の結果を1つのグループとして前記記録装置に記録させる請求項2に記載の内視鏡システム。
  4.  前記プロセッサは、
     前記一の区切りを検出してから前記他の区切りを検出するまで前記項目情報及び前記音声認識の結果の表示を継続し、
     前記他の区切りを検出した場合は、前記表示装置における前記項目情報及び前記音声認識の結果の表示態様を変更させる請求項2または3に記載の内視鏡システム。
  5.  前記プロセッサは、
     前記項目情報及び前記音声認識の結果をリアルタイムに前記表示装置に表示させる請求項2から4のいずれか1項に記載の内視鏡システム。
  6.  前記項目情報は、診断、所見、処置、止血のうち少なくとも1つを含む請求項2から5のいずれか1項に記載の内視鏡システム。
  7.  前記プロセッサは、前記一の区切りを前記グループ化の開始区切りとして検出し、前記他の区切りを前記グループ化の終了区切りとして検出する請求項1から6のいずれか1項に記載の内視鏡システム。
  8.  前記プロセッサは、前記終了区切りを検出してから、前記終了区切りを検出した時刻より後の時刻に前記終了区切りを再度検出するまでの期間における前記音声認識の結果をグループ化する請求項7に記載の内視鏡システム。
  9.  前記プロセッサは、
     前記医療画像における特定の被写体の検出終了、前記音声認識装置に対する第1の特定語句の音声入力、前記音声認識装置に対する音声入力の決められた時間以上の未入力状態継続、前記音声認識する項目の全てに対する音声入力の完了、前記音声認識する項目の内の特定の項目に対する音声入力の完了、前記内視鏡スコープの挿入長及び/または挿入形状が決められた値以上に変化したことを示す情報の取得、前記内視鏡システムのユーザによる操作デバイスを介した操作の開始または停止のうち少なくとも1つを前記終了区切りとして検出する請求項7または8に記載の内視鏡システム。
  10.  前記プロセッサは、
     前記医療画像における特定の被写体の検出開始、前記音声認識装置に対する第2の特定語句の音声入力、前記内視鏡システムのユーザによる操作デバイスを介した入力、前記特定の被写体についての鑑別モードの開始、前記特定の被写体についての鑑別結果の出力開始、前記特定の被写体についての計測モードの開始のうち少なくとも1つを前記開始区切りとして検出する請求項7から9のいずれか1項に記載の内視鏡システム。
  11.  前記プロセッサは、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも1つを前記特定の被写体と判断する請求項9または10に記載の内視鏡システム。
  12.  前記プロセッサは、機械学習により生成された画像認識器を用いて前記特定の被写体を認識する請求項9から11のいずれか1項に記載の内視鏡システム。
  13.  前記プロセッサは、前記開始区切りを検出した場合は、前記医療画像についての音声入力を促すメッセージを出力装置に出力させる請求項8から12のいずれか1項に記載の内視鏡システム。
  14.  前記プロセッサは、
     前記一の区切りを検出してから前記他の区切りを検出するまでの期間において前記内視鏡スコープで撮影した医療画像から選択した画像を、前記音声の認識結果と共にグループ化して記録させる請求項1から13のいずれか1項に記載の内視鏡システム。
  15.  前記プロセッサは、前記時系列の医療画像を構成するフレーム画像から選択した画像、及び/または前記時系列の医療画像とは別に撮影した撮影画像から選択した画像を、前記音声認識の結果と共にグループ化して記録させる請求項1から14のいずれか1項に記載の内視鏡システム。
  16.  前記プロセッサは、前記時系列の医療画像と前記音声認識の結果とを別個の表示装置に表示させる請求項1から15のいずれか1項に記載の内視鏡システム。
  17.  音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムにより実行される医療情報処理方法であって、
     前記プロセッサは、
     前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
     前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
     一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる医療情報処理方法。
  18.  音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムに医療情報処理方法を実行させる医療情報処理プログラムであって、
     前記医療情報処理方法において、前記プロセッサは、
     前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
     前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
     一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる医療情報処理プログラム。
  19.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項18に記載のプログラムが記録された記録媒体。
PCT/JP2022/045977 2022-01-19 2022-12-14 内視鏡システム、医療情報処理方法、及び医療情報処理プログラム WO2023139985A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-006229 2022-01-19
JP2022006229 2022-01-19

Publications (1)

Publication Number Publication Date
WO2023139985A1 true WO2023139985A1 (ja) 2023-07-27

Family

ID=87348160

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/045977 WO2023139985A1 (ja) 2022-01-19 2022-12-14 内視鏡システム、医療情報処理方法、及び医療情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023139985A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221583A (ja) * 2005-02-14 2006-08-24 Olympus Corp 医療支援システム
JP2006223357A (ja) * 2005-02-15 2006-08-31 Olympus Corp 医療支援システム
JP2008302146A (ja) * 2007-06-11 2008-12-18 Olympus Medical Systems Corp 内視鏡装置及び内視鏡画像制御装置
US20150289756A1 (en) * 2012-10-30 2015-10-15 Sirona Dental Systems Gmbh Method for determining at least one relevant single image of a dental subject
JP2021037036A (ja) * 2019-09-02 2021-03-11 Hoya株式会社 内視鏡システム、プロセッサ、修正方法、コンピュータプログラム、サーバー装置およびデータ処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221583A (ja) * 2005-02-14 2006-08-24 Olympus Corp 医療支援システム
JP2006223357A (ja) * 2005-02-15 2006-08-31 Olympus Corp 医療支援システム
JP2008302146A (ja) * 2007-06-11 2008-12-18 Olympus Medical Systems Corp 内視鏡装置及び内視鏡画像制御装置
US20150289756A1 (en) * 2012-10-30 2015-10-15 Sirona Dental Systems Gmbh Method for determining at least one relevant single image of a dental subject
JP2021037036A (ja) * 2019-09-02 2021-03-11 Hoya株式会社 内視鏡システム、プロセッサ、修正方法、コンピュータプログラム、サーバー装置およびデータ処理装置

Similar Documents

Publication Publication Date Title
WO2019198808A1 (ja) 内視鏡観察支援装置、内視鏡観察支援方法、及びプログラム
US11298012B2 (en) Image processing device, endoscope system, image processing method, and program
JP7278202B2 (ja) 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置
WO2007023631A1 (ja) 内視鏡挿入形状解析装置及び内視鏡挿入形状解析システム
JP7308258B2 (ja) 医療画像処理装置及び医療画像処理装置の作動方法
JP7323647B2 (ja) 内視鏡検査支援装置、内視鏡検査支援装置の作動方法及びプログラム
JP7345023B2 (ja) 内視鏡システム
EP3875021A1 (en) Medical image processing apparatus, medical image processing method and program, and diagnosis assisting apparatus
JPWO2019130868A1 (ja) 画像処理装置、プロセッサ装置、内視鏡システム、画像処理方法、及びプログラム
WO2021171465A1 (ja) 内視鏡システム及び内視鏡システムによる管腔走査方法
WO2023139985A1 (ja) 内視鏡システム、医療情報処理方法、及び医療情報処理プログラム
JP6840263B2 (ja) 内視鏡システム及びプログラム
US20220361739A1 (en) Image processing apparatus, image processing method, and endoscope apparatus
JP7148534B2 (ja) 画像処理装置、プログラム、及び内視鏡システム
WO2023038005A1 (ja) 内視鏡システム、医療情報処理装置、医療情報処理方法、医療情報処理プログラム、及び記録媒体
EP4285810A1 (en) Medical image processing device, method, and program
JP6710853B2 (ja) プローブ型共焦点レーザー顕微内視鏡画像診断支援装置
WO2023038004A1 (ja) 内視鏡システム、医療情報処理装置、医療情報処理方法、医療情報処理プログラム、及び記録媒体
JP7335157B2 (ja) 学習データ作成装置、学習データ作成装置の作動方法及び学習データ作成プログラム並びに医療画像認識装置
WO2023282144A1 (ja) 情報処理装置、情報処理方法、内視鏡システム及びレポート作成支援装置
WO2023058388A1 (ja) 情報処理装置、情報処理方法、内視鏡システム及びレポート作成支援装置
WO2023282143A1 (ja) 情報処理装置、情報処理方法、内視鏡システム及びレポート作成支援装置
US20230410304A1 (en) Medical image processing apparatus, medical image processing method, and program
JP7264407B2 (ja) 訓練用の大腸内視鏡観察支援装置、作動方法、及びプログラム
WO2022044642A1 (ja) 学習装置、学習方法、プログラム、学習済みモデル、及び内視鏡システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22922136

Country of ref document: EP

Kind code of ref document: A1