WO2023127292A1 - 情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体 - Google Patents

情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体 Download PDF

Info

Publication number
WO2023127292A1
WO2023127292A1 PCT/JP2022/040671 JP2022040671W WO2023127292A1 WO 2023127292 A1 WO2023127292 A1 WO 2023127292A1 JP 2022040671 W JP2022040671 W JP 2022040671W WO 2023127292 A1 WO2023127292 A1 WO 2023127292A1
Authority
WO
WIPO (PCT)
Prior art keywords
dictionary
information processing
processor
information
treatment
Prior art date
Application number
PCT/JP2022/040671
Other languages
English (en)
French (fr)
Inventor
憲一 原田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023127292A1 publication Critical patent/WO2023127292A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof

Definitions

  • the present invention relates to an information processing device, a tablet terminal, an operation method of the information processing device, an information processing program, and a recording medium, and more particularly to a technology for inputting record information to be recorded in relation to endoscopy by voice operation.
  • the doctor operates the endoscope with both hands and uses the foot switch with both feet. If the doctor wishes to operate additional equipment, voice operation is considered to be one of the effective means.
  • Patent Literature 1 describes operating an endoscope by voice input.
  • Japanese Patent Application Laid-Open No. 2002-200002 describes that voice input for creating a report is performed.
  • the recorded information such as the diagnosis name, treatment name, and treatment instrument name recorded in the diagnosis report is recorded with the formal name, but since there are long names, there is a problem that voice input of the recorded information with the formal name is inconvenient. be.
  • An object of the present invention is to provide an apparatus operating method, an information processing program, and a recording medium.
  • the invention according to a first aspect is an information processing apparatus comprising a processor and a first dictionary in which record information to be recorded in relation to an endoscopy is registered, comprising: 1 dictionary is configured by directly or indirectly associating an identification character different from the recorded information with the recorded information, and the processor generates a voice uttered by the user during the endoscopy, which indicates the identification character. and acquires recorded information corresponding to the identification character from a first dictionary based on the recognized identification character.
  • the recorded information when a user (physician) obtains recorded information related to an endoscopy by voice operation during an endoscopy, the recorded information is not uttered. Speak the associated identifying character.
  • the processor recognizes a voice indicating the identification character uttered by the user, and acquires recorded information corresponding to the identification character from the first dictionary based on the recognized identification character. This eliminates the need for the user to utter words that the patient is afraid to hear (for example, the name of the diagnosis of a serious illness, etc.). Recording information can be obtained.
  • the processor acquires an endoscopic image associated with the record information during an endoscopy, associates the acquired endoscopic image with the record information, and stores the acquired endoscopic image in the memory. preferably.
  • the first dictionary includes a diagnosis name dictionary having a diagnosis name indicating a lesion as recorded information, a treatment name dictionary having a treatment name indicating treatment by an endoscope as recorded information, and at least one of a treatment tool name dictionary having treatment tool names indicating treatment tools of an endoscope as recorded information.
  • the identification characters preferably include at least one of numerals, one letter of the alphabet, and abbreviations or common names indicating recorded information.
  • the first dictionary includes a second dictionary in which identification information indicating record information and record information are registered in association with each other, and an identification character and identification information are registered in association with each other. and a third dictionary, wherein the processor obtains identification information associated with the identification character from the third dictionary based on the recognized identification character, and obtains the identification information from the second dictionary based on the obtained identification information.
  • the associated recorded information is obtained.
  • the third dictionary can be a user-dedicated dictionary (a plurality of dictionaries) for each user, and in this case, the second dictionary can be used in common for each user.
  • the information processing apparatus further comprises a GUI (Graphical User Interface), and the processor newly creates a third dictionary or edits registered contents of the third dictionary through operation input from the GUI. preferably.
  • GUI Graphic User Interface
  • the information processing apparatus further includes a GUI (Graphical User Interface), and the processor sets valid or invalid of the first dictionary by an operation input from the GUI.
  • GUI Graphic User Interface
  • the processor acquires an endoscopic image during an endoscopic examination, detects a specific type of subject from the endoscopic image, and validates the first dictionary. is preferred. For example, if the detection of a particular type of object (e.g. neoplastic lesions) is to be performed, enabling the first dictionary will result in words that the patient is afraid to hear (diagnostics related to neoplasia) Acquisition of recorded information can be prevented by utterance of .
  • a particular type of object e.g. neoplastic lesions
  • the processor acquires an endoscopic image during an endoscopy, detects the type of lesion from the endoscopic image, It is preferable to set whether one dictionary is valid or invalid. This makes it possible to set whether the first dictionary is valid or invalid in more detail.
  • the information processing apparatus further comprises a communication unit that communicates with a server that provides the speech recognition engine, the processor downloads or updates the speech recognition engine from the server via the communication unit, A downloaded or updated speech recognition engine preferably recognizes the voice uttered by the user. This eliminates the need to prepare a speech recognition engine in advance on the information processing apparatus side, and the latest speech recognition engine can be acquired. Also, it is possible to acquire a voice recognition engine suitable for the user's attributes.
  • the first dictionary includes a diagnosis name dictionary having a plurality of diagnosis names indicating lesions, and a treatment tool name dictionary having a plurality of treatment tool names indicating treatment tools of an endoscope.
  • the processor acquires an endoscopic image during an endoscopic examination, recognizes at least one of a lesion and a treatment tool used for treatment by the endoscope based on the endoscopic image, and performs the lesion or the treatment; It is preferable to select a diagnosis name dictionary or a treatment instrument name dictionary based on the recognition result of the instrument, and acquire recorded information corresponding to the identification character from the selected dictionary based on the recognized identification character.
  • the processor recognizes the voice indicating the identification character uttered after recognizing the voice indicating the wake word during the endoscopy. As a result, voices not intended by the user can be prevented from being recognized.
  • the first dictionary includes a diagnosis name dictionary having a plurality of diagnosis names indicating lesions, a treatment name dictionary having a plurality of treatment names indicating treatment by an endoscope, and an internal including at least one of a treatment instrument name dictionary having a plurality of treatment instrument names indicating treatment instruments of the scope, wherein the wake word identifies at least one dictionary of a diagnosis name dictionary, a treatment name dictionary, and a treatment instrument name dictionary;
  • the processor obtains recorded information corresponding to the identifying character from the dictionary specified by the wake word based on the recognized identifying character.
  • the dictionary is specified, so that the candidate identification characters for voice recognition can be narrowed down, and erroneous recognition in voice recognition can be suppressed.
  • the information processing apparatus further comprises a second display device independent of the first display device on which an endoscopic image is displayed during an endoscopy, wherein the processor, during an endoscopy,
  • the first dictionary is displayed on the second display.
  • the processor displays at least one of the recognition result of the voice uttered by the user and the acquired record information on the second display device.
  • the information processing apparatus further includes a masking sound generator that generates a masking sound that interferes with the patient's hearing of the voice uttered by the user during the endoscopy.
  • a seventeenth aspect of the invention is a tablet terminal comprising the information processing device according to any one of the first to fifteenth aspects of the present invention.
  • An invention is a method of operating an information processing apparatus comprising a processor and a first dictionary in which record information related to endoscopy is registered, wherein the first dictionary includes the record information and is configured by directly or indirectly associating different identification characters with recorded information, the processor recognizing a voice uttered by a user during an endoscopy and indicating the identification character; is a method of operating an information processing apparatus, comprising: acquiring recorded information corresponding to the identification character from a first dictionary based on the recognized identification character.
  • the invention according to the nineteenth aspect is an information processing program that causes a computer to execute the method for operating the information processing device according to the eighteenth aspect.
  • a twentieth aspect of the invention is a non-temporary computer-readable recording medium in which an information processing program according to the nineteenth aspect of the present invention is recorded.
  • recorded information related to endoscopic examination can be acquired without stress by speaking naturally during endoscopic examination.
  • FIG. 1 is a system configuration diagram including a tablet terminal and an endoscope system functioning as an information processing apparatus according to the present invention.
  • FIG. 2 is a block diagram showing an embodiment of a hardware configuration of a processor device that constitutes the endoscope system shown in FIG. 3 is a diagram showing an example of a display screen of a first display device that constitutes the endoscope system shown in FIG. 1.
  • FIG. 4 is a block diagram showing an embodiment of the hardware configuration of the tablet terminal shown in FIG.
  • FIG. 5 is a functional block diagram showing the first embodiment of the tablet terminal.
  • FIG. 6 is a diagram showing an example of a diagnosis name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • FIG. 1 is a system configuration diagram including a tablet terminal and an endoscope system functioning as an information processing apparatus according to the present invention.
  • FIG. 2 is a block diagram showing an embodiment of a hardware configuration of a processor device that constitutes the endoscope system shown in FIG. 3 is a diagram showing an example
  • FIG. 7 is a diagram showing an example of the treatment name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • FIG. 8 is a diagram showing an example of a treatment instrument name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • FIG. 9 is a functional block diagram showing a second embodiment of the tablet terminal.
  • FIG. 10 is a diagram showing an example of a diagnosis name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • FIG. 11 is a diagram showing an example of the treatment name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • FIG. 12 is a diagram showing an example of a treatment instrument name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • FIG. 13 is a diagram illustrating an example of a third dictionary stored in the memory of the tablet terminal;
  • FIG. 14 is a flow chart showing the procedure for creating the third dictionary using the tablet terminal.
  • FIG. 15 is a flowchart showing the flow of valid/invalid setting of the first dictionary and acquisition of record information in the tablet terminal.
  • FIG. 16 is a flowchart showing an example of automatic setting of validity/invalidity of the first dictionary in the tablet terminal.
  • FIG. 17 is a flow chart showing another example of automatic setting of validity/invalidity of the first dictionary in the tablet terminal.
  • FIG. 18 is a flow chart showing a procedure for the tablet terminal to acquire the voice recognition engine.
  • FIG. 19 is a flow chart illustrating an example of utilizing wake word speech recognition.
  • FIG. 20 is a flowchart illustrating another example of utilizing speech recognition of wake words.
  • FIG. 21 is a flow chart showing an example of automatic selection of a diagnosis name dictionary and a treatment instrument name dictionary.
  • FIG. 22 is a diagram showing an example of a display screen of a tablet terminal during endoscopy. 23 is a diagram showing an example of the first dictionary displayed on the display screen of FIG. 22.
  • FIG. 24 is a diagram showing an example of an examination room in which masking sound generators are arranged.
  • FIG. 1 is a system configuration diagram including a tablet terminal and an endoscope system functioning as an information processing apparatus according to the present invention.
  • the endoscope system 1 is composed of an endoscope 10, a processor device 20, a light source device 30, and a first display device 40, and a conventional system can be applied.
  • a tablet terminal 100 that functions as an information processing device is attached to a cart on which the endoscope system 1 is mounted.
  • the tablet terminal 100 is connected to a cloud server (server) 2 via a network 3, and can download a voice recognition engine from the cloud server 2 as described later.
  • server server
  • FIG. 2 is a block diagram showing an embodiment of a hardware configuration of a processor device that constitutes the endoscope system shown in FIG.
  • the processor device 20 shown in FIG. 1 The processor device 20 shown in FIG.
  • the endoscopic image acquisition unit 21 includes a connector to which the endoscope 10 is connected, and captures endoscopic images (moving images) captured by an imaging device provided at the distal end of the endoscope 10 . Acquired from the endoscope 10 via a connector. Also, the processor unit 20 acquires a remote signal generated by operation of the hand operation unit of the endoscope 10 via a connector to which the endoscope 10 is connected.
  • the remote signal includes a release signal for instructing still image shooting, an observation mode switching signal for switching observation modes, and the like.
  • the processor 22 is composed of a CPU (Central Processing Unit) and the like, and performs integrated control of each part of the processor device 20, performs image processing of the endoscopic image acquired from the endoscope 10, and detects a lesion from the endoscopic image in real time. It functions as a processing unit that performs AI (Artificial Intelligence) processing recognized by the endoscope 10, acquisition and storage processing of still images based on the release signal acquired through the endoscope 10, and the like.
  • AI Artificial Intelligence
  • the memory 23 includes flash memory, ROM (Read-only Memory), RAM (Random Access Memory), hard disk device, and the like.
  • the flash memory, ROM, or hard disk device is non-volatile memory that stores various programs and the like executed by the processor 22 .
  • the RAM functions as a work area for processing by the processor 22 and temporarily stores programs and the like stored in flash memory and the like. Note that the processor 22 may incorporate part of the memory 23 (RAM). Still images captured during the endoscopy can be stored in the memory 23 .
  • the display control unit 24 receives real-time endoscopic images (moving images) and still images after image processing applied from the processor 22, and various types of information processed by the processor 22 (for example, lesion area information, observation site information, etc.). , speech recognition state), and outputs the display image to the first display device 40 .
  • FIG. 3 is a diagram showing an example of the display screen of the first display device that constitutes the endoscope system shown in FIG.
  • the screen 40A of the first display device 40 has a main display area A1 and a sub-display area A2, and an endoscopic image I (moving image) is displayed in the main display area A1. Also, if a lesion is recognized by the processor 22, a bounding box or the like surrounding the area of the lesion can be displayed to aid diagnostic imaging.
  • Various information related to endoscopy is displayed in the sub-display area A2 of the screen 40A.
  • the information Ip about the patient and the still image Is of the endoscopic image taken during the endoscopy are displayed.
  • the still images Is are displayed, for example, in the order in which they were shot from top to bottom on the screen 40A.
  • the processor 22 displays an icon 42 indicating the state of voice recognition, which will be described later, a schematic diagram (schema diagram) 44 indicating an observation site during imaging, and an observation site name (in this example, ascending colon) 46 can be displayed.
  • the input/output interface 25 includes a connection section for wired and/or wireless connection with an external device, a communication section connectable to a network, and the like.
  • the processor device 20 is wirelessly connected to the tablet terminal 100 via the input/output interface 25, and transmits and receives necessary information.
  • a foot switch (not shown) is also connected to the input/output interface 25 .
  • the foot switch is an operation device placed at the feet of the operator and operated with the foot, and transmits an operation signal to the processor device 20 by stepping on the pedal.
  • the processor device 20 is connected to a storage (not shown) via an input/output interface 25 .
  • the storage (not shown) is an external storage device connected to the processor device 20 via a LAN (Local Area Network) or the like. Examples include NAS (Network Attached Storage).
  • the operation unit 26 includes a power switch, switches for manually adjusting white balance, light intensity, zooming, etc., and switches for setting various modes.
  • the light source device 30 supplies illumination light to the light guide of the endoscope 10 by connecting the endoscope 10 via a connector.
  • the illumination light may be white light (light in a white wavelength band or light in a plurality of wavelength bands), light in one or more specific wavelength bands, or light in various wavelength bands according to the purpose of observation, such as a combination thereof. selected.
  • the specific wavelength band is narrower than the white wavelength band.
  • Light of various wavelength bands can be selected by an observation mode selection switch.
  • FIG. 4 is a block diagram showing an embodiment of the hardware configuration of the tablet terminal shown in FIG.
  • the tablet terminal 100 shown in FIG. 4 is composed of a processor 110, a memory 120, a second display device 130, and an input/output interface 140.
  • the processor 110 is composed of a CPU and the like, and controls the various parts of the tablet terminal 100 in an integrated manner. function as a processing unit that acquires recording information to be recorded by
  • the memory 120 includes flash memory, ROM (Read-only Memory), RAM (Random Access Memory), hard disk device, and the like.
  • the flash memory, ROM, or hard disk device is a non-volatile memory that stores the information processing program according to the present invention executed by the processor 110, various programs such as a speech recognition engine, the first dictionary according to the present invention, and the like.
  • the RAM functions as a work area for processing by the processor 110 and temporarily stores programs and the like stored in flash memory and the like.
  • the processor 110 may incorporate part of the memory 120 (RAM).
  • the endoscope image still image
  • the recorded information acquired by the processor 110 can be stored in the memory 23 .
  • the second display device 130 is a display with a touch panel, and displays the voice recognition result recognized by the processor 110, the recorded information acquired by the processor 110, the first dictionary, etc., and various instructions and information are displayed by touching the screen. It functions as a GUI (Graphical User Interface) that accepts
  • the input/output interface 140 includes a connection unit for wired and/or wireless connection with an external device, a communication unit that can be connected to a network, and the like.
  • the tablet terminal 100 is wirelessly connected to the processor device 20 via the input/output interface 140, and transmits and receives necessary information.
  • a microphone 150 is connected to the input/output interface 140 , and the input/output interface 140 receives audio data from the microphone 150 .
  • the microphone 150 of this example is a wireless headset that is set on the user's (doctor's) head, and transmits voice data representing voices spoken by the user during endoscopy.
  • the tablet terminal 100 is connected to the cloud server 2 via the network 3 as shown in FIG.
  • the tablet terminal 100 is preferably attached to a cart or the like so that only the user can see the screen of the tablet terminal 100.
  • the first display device 40 of the endoscope system 1 may be installed so as to be visible to both the user and the patient.
  • the user While confirming the endoscopic image (moving image) displayed on the screen 40A of the first display device 40 at the time of endoscopic examination, the user moves the distal end of the scope forward and backward to detect a lesion at the observation site in the hollow organ.
  • the release button for instructing still image photography is operated to execute still image photography of the observation site, and diagnosis and endoscopic treatment are performed.
  • the processor device 20 can perform AI processing for recognizing a lesion from an endoscopic image in real time, as described above, and can support diagnosis.
  • the tablet terminal 100 is a device for acquiring record information to be recorded in relation to the endoscopy based on the voice uttered by the user during the endoscopy, and for recording the information in association with the still image. is.
  • FIG. 5 is a functional block diagram showing the first embodiment of the tablet terminal, and shows the processor 110 in particular.
  • the processor 110 executes the information processing program and the speech recognition engine stored in the memory 120, thereby acting as the speech recognition unit by the speech recognition engine 112, the recorded information acquisition unit 114, and the recording processing unit 116. Function.
  • the user When a lesion is discovered during an endoscopic examination, the user captures an endoscopic image (still image) showing the lesion and records information (for example, diagnosis name, internal The name of the treatment by the scope, the name of the treatment instrument used for the treatment, etc.) is spoken.
  • information for example, diagnosis name, internal The name of the treatment by the scope, the name of the treatment instrument used for the treatment, etc.
  • the microphone 150 of the headset converts the voice uttered by the user into an electrical signal (voice data). Audio data 102 is received by input/output interface 140 and input to processor 110 .
  • the processor 110 uses the voice recognition engine 112 to convert voice data representing identification characters corresponding to the recorded information into identification characters (text data). That is, the processor 110 recognizes the voice, which is spoken by the user and which indicates the identification character.
  • the recorded information acquisition unit 114 acquires (reads) recorded information corresponding to the identification character from the first dictionary 122 in the memory 120 based on the identification character recognized by the voice recognition engine 112 .
  • FIG. 6 is a diagram showing an example of a diagnosis name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • the first dictionary 122 shown in FIG. 6 is a diagnosis name dictionary having diagnosis names indicating lesions as recorded information, and identification characters to be spoken are associated with each diagnosis name.
  • the uttered identification characters are numerals such as number 1, number 2, number 3, etc., and the abbreviation MG (Magen Geschwuer) for gastric ulcer, which is the diagnosis name, and are different from the diagnosis name, which is recorded information.
  • abbreviation MG Magnen Geschwuer
  • each diagnosis name is associated with an identification character that is different from the diagnosis name that the patient is afraid to ask.
  • the user when the user records the diagnosis by voice operation, instead of speaking the diagnosis name, the user speaks the number associated with the diagnosis name or speaks the abbreviation of the diagnosis name.
  • the identification characters different from the diagnosis name are not limited to numerals such as numbers or abbreviations of the diagnosis name. Any identification character may be used as long as the diagnosis name cannot be recalled from the identification character. Also, when an abbreviation of a diagnosis is used as an identification character, it is preferably an abbreviation of a diagnosis that is not a serious disease.
  • FIG. 7 is a diagram showing an example of the treatment name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • the first dictionary 122 shown in FIG. 7 is a treatment name dictionary having treatment names indicating treatments by an endoscope as recorded information, and identification characters to be spoken are associated with each treatment name.
  • the uttered identification characters are endoscopic mucosal resection (EMR: Endoscopic mucosal resection), endoscopic submucosal dissection (ESD: Endoscopic Submucosal Dissection), cold forceps polypectomy (CFP: Cold Forceps Polypectomy), Cold Snare Polypectomy (CSP), and other endoscopic treatment names.
  • EMR Endoscopic mucosal resection
  • ESD Endoscopic Submucosal Dissection
  • CFP Cold Forceps Polypectomy
  • CSP Cold Snare Polypectomy
  • FIG. 8 is a diagram showing an example of the treatment instrument name dictionary, which is the first dictionary stored in the memory of the tablet terminal.
  • the first dictionary 122 shown in FIG. 8 is a treatment tool name dictionary that has treatment tools used for treatment with an endoscope as recorded information, in which spoken identification characters are associated with each treatment tool name.
  • the uttered identification characters are abbreviations or common names of treatment tools such as high-frequency snares, high-frequency knives, hemostatic clips, and jumbo cold polypectomy forceps.
  • Treatment tools such as high-frequency snares, high-frequency knives, hemostatic clips, and jumbo cold polypectomy forceps.
  • Formal names of treatment instruments have long names, while abbreviations and common names of these treatment instrument names are familiar to users, so abbreviations of treatment names are suitable as identification characters to be spoken.
  • the recording processing unit 116 acquires the still image of the endoscopic image 104 from the processor device 20, and also acquires the still image of the endoscope image 104 during the endoscopy.
  • the recorded information acquisition unit 114 acquires the recorded information corresponding to the identification character from the first dictionary 122 based on the identification character
  • the acquired endoscopic image 104 and the recorded information are associated and stored in the memory 120 . Endoscopic images and recorded information stored in memory 120 can be used, for example, to generate diagnostic reports.
  • FIG. 9 is a functional block diagram showing the second embodiment of the tablet terminal, and particularly shows the processor 110. As shown in FIG. In addition, in FIG. 9, the same reference numerals are given to the parts common to the tablet terminal of the first embodiment shown in FIG. 5, and detailed description thereof will be omitted.
  • the tablet terminal of the second embodiment shown in FIG. 9 mainly differs in that it uses a second dictionary 124 and a third dictionary 126 instead of the first dictionary 122 of the tablet terminal of the first embodiment. That is, the first dictionary 122 is composed of a second dictionary 124 and a third dictionary 126 .
  • identification information indicating recorded information and recorded information are registered in association
  • identification characters and identification information are associated and registered. 126 plays a similar role as the first dictionary 122 .
  • Recorded information acquisition unit 114-2 of processor 110 acquires identification information associated with the identification character from third dictionary 126 in memory 120 based on the identification character speech-recognized by speech recognition engine 112, and then, Based on the obtained identification information, record information associated with the identification information is obtained from the second dictionary 124 .
  • the first dictionary 122 is configured by directly associating identification characters different from the recorded information with the recorded information. , the identification character different from the recorded information and the recorded information are indirectly associated via the identification information.
  • FIG. 10 is a diagram showing an example of a diagnosis name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • the diagnosis name dictionary which is the second dictionary 124 shown in FIG. 10, is a dictionary having diagnosis names indicating lesions as recorded information.
  • This diagnosis name dictionary is a dictionary in which all diagnosis names diagnosed at the time of endoscopy are registered, and identification information specifying each diagnosis name can be, for example, diagnosis name dictionary+serial number.
  • FIG. 11 is a diagram showing an example of the treatment name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • the treatment name dictionary which is the second dictionary 124 shown in FIG. 11, is a dictionary having treatment names indicating treatments with an endoscope as recorded information.
  • This treatment name dictionary is a dictionary in which treatment names indicating all treatments performed by the endoscope are registered, and identification information specifying each treatment name can be, for example, treatment name dictionary + serial number. can.
  • FIG. 12 is a diagram showing an example of the treatment instrument name dictionary, which is the second dictionary stored in the memory of the tablet terminal.
  • the treatment tool name dictionary which is the second dictionary 124 shown in FIG. 12, is a dictionary having treatment tool names indicating treatment tools used for endoscope treatment as recorded information.
  • This treatment tool name dictionary is a dictionary in which the names of all treatment tools that are used for treatment with an endoscope are registered. can do.
  • FIG. 13 is a diagram showing an example of the third dictionary stored in the memory of the tablet terminal.
  • the third dictionary 126 shown in FIG. 13 is a dictionary in which identification characters spoken by the user and identification information are associated and registered.
  • the identification character uttered by the user is "EMR”
  • the identification information associated with “EMR” from the third dictionary 126 is "No. 1 in the treatment name dictionary.” ” is obtained.
  • the treatment name of "No. 1" in the treatment name dictionary which is the second dictionary shown in FIG. 11, is "endoscopic mucosal resection”. Therefore, "endoscopic mucosal resection" is acquired as the treatment name.
  • FIG. 14 is a flow chart showing the procedure for creating the third dictionary using the tablet terminal.
  • the user can newly create the third dictionary 126 by inputting operations using the GUI of the tablet terminal 100 .
  • the function of creating the third dictionary 126 of the tablet terminal 100 first causes the second display device 130 to display the blank third dictionary (step S2).
  • the user enters a desired identification character (for example, "No. 1") into the blank identification character input field of the third dictionary (step S4).
  • a desired identification character for example, "No. 1"
  • the user enters desired identification information (for example, "diagnosis name dictionary number 1" in the identification information column corresponding to the input identification character (step S6). It is assumed that the user can confirm the contents of the second dictionary (diagnosis name dictionary) on the screen of the tablet terminal 100 or the like.
  • step S8 After entering pairs of identification characters and identification information in this way, the user determines whether or not to end the creation of the third dictionary (step S8).
  • the user can complete the third dictionary 126 and save it in the memory 120 by selecting to finish creating the third dictionary.
  • the user can also edit the third dictionary 126 (adding, changing, and deleting pairs of identification characters and identification information) in the same manner.
  • the third dictionary 126 can be stored in the memory 120 as a user-dedicated dictionary (a plurality of dictionaries) for each user.
  • the second dictionary 124 can be used in common for each user.
  • FIG. 15 is a flow chart showing a flow of setting valid/invalid of the first dictionary in the tablet terminal and obtaining recorded information by the operating method of the information processing apparatus.
  • step S10 enable/disable the first dictionary.
  • Validity/invalidation of the first dictionary may be set by the user through an operation input from the GUI of the tablet terminal 100, or may be automatically set as described later.
  • the first dictionary includes a dictionary functioning as the first dictionary consisting of the first dictionary 122 shown in FIG. 5 and the second dictionary 124 and third dictionary 126 shown in FIG.
  • the "valid" setting of valid/invalid of the first dictionary refers to the setting to acquire recorded information such as diagnosis name by voice operation using the first dictionary
  • the "invalid” setting means the This is a setting for acquiring recorded information such as a diagnosis name by voice operation using the first dictionary or without using the first dictionary.
  • the processor 110 uses the voice recognition engine 112 to recognize the voice uttered by the user during the endoscopy (step S20).
  • the processor 110 determines whether or not the recognized voice indicates the identification character registered in the first dictionary (step S30). If it is determined that the voice indicates an identification character (“Yes”), the processor 110 acquires recorded information corresponding to the identification character from the first dictionary (step S40).
  • the user can acquire the diagnosis name (recorded information) corresponding to the identification information by uttering identification characters that are different from the diagnosis name that the patient is afraid to hear.
  • the diagnosis name (recorded information) corresponding to the identification information
  • the formal name (recorded information) of the treatment name corresponding to the identification information can be obtained.
  • step S30 determines whether the recognized voice is not the voice indicating the identification character (in the case of "No"
  • the processor 110 further determines whether the voice indicates the recorded information such as the diagnosis name to be recorded during the endoscopy. (step S50). If it is determined that the recognized voice is not recorded information, the process proceeds to step S20, and the recognized voice is not acquired as recorded information. When the processor 110 determines that the recognized voice is recorded information, the process proceeds to step S60.
  • the processor 110 determines in step S60 whether or not the first dictionary is set valid. If it is determined that the first dictionary is set to valid (in the case of "Yes"), the process transitions to step S60. As a result, even if the recognized voice is recorded information, the recorded information is not acquired. This is because, when the first dictionary is set to be valid, only the acquisition of recorded information by using the first dictionary by uttering identification characters is permitted.
  • step S60 determines whether the first dictionary is disabled ("No")
  • the process proceeds to step S70 to acquire the recorded information spoken. Therefore, when the first dictionary is disabled, the recorded information can be acquired using the first dictionary by uttering the identification characters, and even if the recorded information is directly uttered, the recorded information can be obtained.
  • FIG. 16 is a flowchart showing an example of automatic setting of validity/invalidity of the first dictionary in the tablet terminal, and shows an example of processing in step S10 shown in FIG.
  • the processor 110 of the tablet terminal 100 acquires an endoscopic image during an endoscopy (step S11), and determines whether or not a specific type of subject has been detected from the acquired endoscopic image. (Step S12).
  • a specific type of subject is a lesion, and can be, for example, a subject exhibiting "neoplastic" out of neoplastic/non-neoplastic.
  • neoplasticity/non-neoplasticity can be recognized by AI from the endoscopic image.
  • the processor 110 determines that a specific type of subject has been detected (in the case of "Yes"), it sets the first dictionary to valid (step S13). On the other hand, if no specific type of subject is detected ("No"), the first dictionary is not enabled (disabled).
  • the first dictionary when a specific type of subject is detected, the first dictionary is automatically set to valid, and as a result, acquisition of recorded information is performed using the first dictionary by uttering identification characters. Restrictions on acquisition. For example, if a particular type of object (e.g., a neoplastic lesion) is detected, the first dictionary can be enabled to include words (diagnostic names related to neoplasia) that the patient is afraid to hear. Acquisition of recorded information can be prevented by speaking.
  • a particular type of object e.g., a neoplastic lesion
  • FIG. 17 is a flowchart showing another example of automatic setting of validity/invalidity of the first dictionary in the tablet terminal, and shows another example of the processing in step S10 shown in FIG.
  • the processor 110 of the tablet terminal 100 acquires an endoscopic image during an endoscopy (step S11), and detects the type of lesion from the acquired endoscopic image (step S14).
  • Lesion types are not limited to neoplastic/nonneoplastic, and include, for example, a plurality of lesion types corresponding to a plurality of diagnostic names registered in a diagnostic name dictionary. Also, the type of lesion can be recognized from the endoscopic image by lesion recognition AI.
  • the processor 110 automatically sets whether the first dictionary is valid or invalid according to the type of detected lesion (step S15).
  • the types of lesions to be validated in the first dictionary can be set in advance.
  • the first dictionary can be validated for serious lesions that patients are afraid to ask about.
  • the first dictionary is automatically set to be valid for the specific lesion.
  • a specific lesion lesion for which the first dictionary is valid
  • the first dictionary is automatically set to be valid for the specific lesion.
  • FIG. 18 is a flow chart showing a procedure for the tablet terminal to acquire the voice recognition engine.
  • the tablet terminal 100 can download the speech recognition engine provided by the cloud server 2 shown in FIG.
  • a plurality of speech recognition engines are prepared in the cloud server 2, and the user can download a desired speech recognition engine out of the plurality of speech recognition engines.
  • the user when downloading the voice recognition engine, the user operates the tablet terminal 100 to display a menu screen for downloading the voice recognition engine (step S100). For example, it is preferable to display input fields for inputting attributes of the user on the menu screen.
  • the tablet terminal 100 receives the user's selection of the speech recognition engine based on the user's operation on the menu screen (step S110). For example, the tablet terminal 100 accepts selection of a speech recognition engine suitable for the user by inputting user attributes (language used, gender, age, region), etc. according to the menu screen. By inputting the language used, it is possible to select a voice recognition engine such as Japanese or English, and by inputting the gender and age, it is possible to select a voice recognition engine suitable for recognizing the voice of the corresponding gender and age. In addition, it is possible to select a speech recognition engine suitable for the intonation of speech used in the area by inputting the area.
  • the tablet terminal 100 Upon receiving the selection of the speech recognition engine, the tablet terminal 100 connects to the cloud server 2 and downloads the selected speech recognition engine from the cloud server 2 (step S120).
  • the cloud server 2 notifies the user, and the user can update to the latest speech recognition engine.
  • FIG. 19 is a flow chart illustrating an example of utilizing wake word speech recognition.
  • step S20 shown in FIG. 15 when recognizing a voice indicating a wake word during an endoscopy, the tablet terminal 100 triggers voice recognition of the wake word, and subsequently uttered identification characters Start recognizing speech indicating, etc. It is assumed that a wake word is set in advance in the voice recognition engine.
  • the processor 110 of the tablet terminal 100 determines whether or not the character voice-recognized by the voice recognition engine is a wake word (step S21). If it is determined to be a wake word (“Yes”), processor 110 causes the speech recognition engine to recognize the voice uttered after the wake word, and acquires the recognition result as an identification character.
  • the identification characters are assumed to be short phrases and may be uttered in unintended situations by the user. It can be recognized with high accuracy.
  • FIG. 20 is a flow chart showing another example of utilizing wake word speech recognition.
  • wake words in this example a plurality of wake words such as “diagnosis”, “treatment”, and “treatment instrument” are set.
  • the processor 110 of the tablet terminal 100 determines whether or not the character voice-recognized by the voice recognition engine is a wake word (step S21). If it is determined to be a wake word ("Yes"), processor 110 determines whether the wake word indicates "diagnosis” and whether it indicates "treatment” (steps S23, S24).
  • processor 110 identifies the diagnosis name dictionary (step S25), and if the wake word is determined to be "treatment”, processor 110 identifies the treatment name dictionary (step S25). In step S26), when the wake word is determined to be something other than "diagnosis” and "treatment” (that is, "treatment tool”), the processor 110 identifies the treatment tool name dictionary (step S27).
  • the processor 110 can acquire recorded information corresponding to the identification character from the dictionary specified by the wake word based on the identification character recognized from the utterance after the wake word.
  • the tablet terminal 100 is similar to the case of FIG. 19 in that the voice recognition of the wake word is used as a trigger to start recognizing the voice indicating the identification character or the like that is uttered after that. Since the dictionary is specified, the identification character candidates for voice recognition can be narrowed down to the specified dictionary, and erroneous recognition in voice recognition can be suppressed.
  • the wake word may be a word specifying at least one of the diagnosis name dictionary, the treatment name dictionary, and the treatment equipment name dictionary.
  • FIG. 21 is a flow chart showing an example of automatic selection of a diagnosis name dictionary and a treatment instrument name dictionary.
  • the dictionary is specified (selected) according to the type of wake word, but the automatic selection of the dictionary shown in FIG. 21 is performed based on the endoscopic image.
  • the processor 110 of the tablet terminal 100 acquires an endoscopic image (step S200).
  • the processor 110 recognizes whether or not the acquired endoscopic image shows a lesion or a treatment tool (steps S210, S220). Recognition of these lesions and treatment instruments can be performed by AI recognition from endoscopic images.
  • the processor 110 When the processor 110 recognizes the lesion from the endoscopic image, it selects the diagnosis name dictionary (step S240), and when it recognizes the treatment tool from the endoscopic image, it selects the treatment tool name dictionary (step S242).
  • the processor 110 selects a diagnosis name dictionary or a treatment instrument name dictionary based on the recognition result of at least one of the lesion and the treatment instrument, and acquires recorded information corresponding to the identification characters from the selected dictionary based on the recognized identification characters. can be done. Note that the processor 110 may select the treatment name dictionary when recognizing the treatment instrument from the endoscopic image.
  • FIG. 22 is a diagram showing an example of a display screen of a tablet terminal during endoscopy.
  • the user When the relationship between the identification characters uttered by the user and the recorded information such as the diagnosis name corresponding to the identification characters is unknown, the user utters a voice indicating the corresponding identification characters when obtaining the desired recorded information. I can't.
  • the tablet terminal 100 shown in FIG. 22 displays the first dictionary on the display screen of the second display device 130 during endoscopy.
  • FIG. 23 is a diagram showing an example of the first dictionary displayed on the display screen of FIG.
  • the first dictionary shown in FIG. 23 has identification characters spoken by the user and recorded information associated with the identification characters.
  • the first dictionary shown in FIG. 23 is a dictionary in which diagnosis names, treatment names, and treatment instrument names are mixed. Anything is fine.
  • the diagnosis name dictionary is displayed on the second display device 130 of the tablet terminal 100, and the treatment name dictionary and The treatment instrument name dictionary may be displayed in the secondary display area A2 of the screen 40A of the first display device 40 of the endoscope system 1.
  • FIG. 1 When the first dictionary is composed of three dictionaries, a diagnosis name dictionary, a treatment name dictionary, and a treatment device name dictionary, the diagnosis name dictionary is displayed on the second display device 130 of the tablet terminal 100, and the treatment name dictionary and The treatment instrument name dictionary may be displayed in the secondary display area A2 of the screen 40A of the first display device 40 of the endoscope system 1.
  • the tablet terminal 100 can be set so that only the user (doctor) can see the screen of the tablet terminal 100. Therefore, even if the diagnosis name dictionary is displayed on the tablet terminal 100, the patient cannot see the identification characters. This is because it is not possible to associate the sound indicating the diagnosis with the name of the diagnosis.
  • any one of the diagnosis name dictionary, the treatment name dictionary, and the treatment equipment name dictionary is specified, or the diagnosis name dictionary or the treatment equipment name dictionary is selected as shown in FIG.
  • the specified or selected dictionary may be displayed on the tablet terminal 100 .
  • the processor of the tablet terminal 100 can display on the second display device 130 at least one of the recognition result of the voice uttered by the user and the acquired recorded information.
  • the speech recognition result is "No. 1”
  • the record information associated with "No. 1” is "stomach cancer”.
  • the user can confirm whether or not the user's utterance has been correctly recognized by the speech recognition engine, and can also confirm the recorded information recorded in association with the endoscopic image during the endoscopy. can be done.
  • the user can associate the endoscopic image with the recorded information and store it in the memory 120 by operating the foot switch.
  • FIG. 24 is a diagram showing an example of an examination room in which masking sound generators are arranged.
  • 200 is a bed on which a patient lies during endoscopic examination
  • 300 is a masking sound generator.
  • a user speaks into the microphone 150 during an endoscopy, but the masking sound generator 300 generates a masking sound that prevents the patient from hearing the voice spoken by the user during an endoscopy. .
  • the microphone 150 of the wireless headset is positioned near the user's mouth, it is possible to detect the user's voice without being obstructed by the masking sound even if the user speaks in a low voice.
  • the masking sound generator 300 can use Hyundai's speech privacy system (VSP-1, VSP-2).
  • the masking sound generator 300 generates a masking sound during an endoscopy so that the patient cannot hear the doctor's speech, or makes it difficult to hear, and also generates an environmental sound as the masking sound that relaxes the patient. be able to.
  • the tablet terminal 100 independent of the processor device 20 is used as the information processing device. It may have functions.
  • circuit configuration can be changed after manufacturing, such as CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), which is a general-purpose processor that executes software (program) and functions as various control units.
  • CPU Central Processing Unit
  • FPGA Field Programmable Gate Array
  • PLD Programmable Logic Device
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be composed of one of these various processors, or composed of two or more processors of the same type or different types (for example, a plurality of FPGAs, or a combination of a CPU and an FPGA).
  • a plurality of control units may be configured by one processor.
  • one processor is configured with a combination of one or more CPUs and software, as typified by computers such as clients and servers.
  • a processor functions as multiple controllers.
  • SoC System On Chip
  • SoC System On Chip
  • the present invention also provides an information processing program that, when installed in a computer, causes the computer to function as an information processing apparatus according to the present invention, and a non-temporary computer-readable recording medium in which the information processing program is recorded.
  • an information processing program that, when installed in a computer, causes the computer to function as an information processing apparatus according to the present invention, and a non-temporary computer-readable recording medium in which the information processing program is recorded.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Endoscopes (AREA)

Abstract

内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体を提供する。タブレット端末は、プロセッサ(110)と、内視鏡検査に関連して記録する記録情報が登録された第1辞書(122)とを備える。第1辞書(122)は、記録情報とは異なる識別文字と記録情報とが関連付けられて構成され、プロセッサ(110)は、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識し、認識した識別文字に基づいて第1辞書(122)から識別文字に対応する記録情報を取得する。

Description

情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体
 本発明は情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体に係り、特に内視鏡検査に関連して記録する記録情報を音声操作により入力する技術に関する。
 内視鏡検査時に医師は、両手で内視鏡スコープを操作し、両足でフットスイッチを使用している状態にある。医師が追加で機器を操作したいと考えた場合、音声操作は有効な手段の一つとなると考えられる。
 従来から、医療画像を用いた検査や診断支援を行う技術分野では、ユーザが発した音声を認識し、認識結果に基づく処理を行うことが知られている。例えば、特許文献1には、内視鏡を音声入力で操作することが記載されている。また、特許文献2には、レポート作成用の音声入力を行うことが記載されている。
特開平8-052105号公報 特開2004-102509号公報
 しかしながら、内視鏡検査時に患者が麻酔され、あるいは鎮痛剤が投与されないケースもあるため、患者に聞かれることが憚られる単語(特に重病の診断名)は、音声操作の単語として採用しにくい。また、診断レポートに記録する診断名、処置名、処置具名等の記録情報は正式名称で記録されるが、長い名称もあるため、正式名称による記録情報の音声入力は、使い勝手が悪いという問題がある。
 本発明はこのような事情に鑑みてなされたもので、内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体を提供することを目的とする。
 上記目的を達成するために第1態様に係る発明は、プロセッサと、内視鏡検査に関連して記録する記録情報が登録された第1辞書と、を備えた情報処理装置であって、第1辞書は、記録情報とは異なる識別文字と記録情報とが直接的又は間接的に関連付けられて構成され、プロセッサは、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識し、認識した識別文字に基づいて第1辞書から識別文字に対応する記録情報を取得する情報処理装置である。
 本発明の第1態様によれば、ユーザ(医師)は内視鏡検査時に内視鏡検査に関連する記録情報を音声操作で取得する場合、その記録情報を発話するのでなく、その記録情報に関連付けられた識別文字を発話する。プロセッサは、ユーザが発話した識別文字を示す音声を認識し、音声認識した識別文字に基づいて第1辞書から識別文字に対応する記録情報を取得する。これにより、ユーザは、患者に聞かれることが憚られる単語(例えば、重病の診断名等)を発話する必要がなく、また、普段使い慣れている略称や単語等を発話しても正式名称である記録情報を取得することができる。
 本発明の第2態様に係る情報処理装置において、プロセッサは、内視鏡検査時に記録情報と関連する内視鏡画像を取得し、取得した内視鏡画像と記録情報とを関連付けてメモリに保存することが好ましい。
 本発明の第3態様に係る情報処理装置において、第1辞書は、記録情報として病変を示す診断名を有する診断名辞書、記録情報として内視鏡による処置を示す処置名を有する処置名辞書、及び記録情報として内視鏡の処置具を示す処置具名を有する処置具名辞書のうちの少なくとも1つを含むことが好ましい。
 本発明の第4態様に係る情報処理装置において、識別文字は、数詞、アルファベットの1文字、及び記録情報を示す略称又は通称のうちの少なくとも1つを含むことが好ましい。
 本発明の第5態様に係る情報処理装置において、第1辞書は、記録情報を示す識別情報と記録情報とが関連付けて登録された第2辞書と、識別文字と識別情報とが関連付けて登録された第3辞書と、から構成され、プロセッサは、認識した識別文字に基づいて第3辞書から識別文字に関連付けられた識別情報を取得し、取得した識別情報に基づいて第2辞書から識別情報に関連付けられた記録情報を取得することが好ましい。第3辞書は、ユーザ毎にユーザ専用の辞書(複数の辞書)とすることができ、この場合、第2辞書は、ユーザ毎に共通に使用することができる。
 本発明の第6態様に係る情報処理装置において、GUI(Graphical User Interface)を更に備え、プロセッサは、GUIからの操作入力により第3辞書を新規に作成し、又は第3辞書の登録内容を編集することが好ましい。
 本発明の第7態様に係る情報処理装置において、GUI(Graphical User Interface)を更に備え、プロセッサは、GUIからの操作入力により第1辞書の有効又は無効を設定することが好ましい。
 本発明の第8態様に係る情報処理装置において、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像から特定の種類の被写体を検出すると、第1辞書を有効にすることが好ましい。例えば、特定の種類の被写体(例えば、腫瘍性の病変)の検出が行われる場合、第1辞書を有効にすることで、患者に聞かれることが憚られる単語(腫瘍性に関連する診断名)の発話により記録情報の取得ができないようにすることができる。
 本発明の第9態様に係る情報処理装置において、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像から病変の種類を検出し、検出した病変の種類に応じて第1辞書の有効又は無効を設定することが好ましい。これにより、より細やかな第1辞書の有効又は無効の設定が可能である。
 本発明の第10態様に係る情報処理装置において、音声認識エンジンを提供するサーバと通信する通信部を更に備え、プロセッサは、サーバから通信部を介して音声認識エンジンをダウンロードし、又は更新し、ダウンロード又は更新した音声認識エンジンによりユーザが発話する音声を認識することが好ましい。これにより、情報処理装置側で予め音声認識エンジンを準備する必要がなく、また、最新の音声認識エンジンを取得することができる。また、ユーザの属性に適した音声認識エンジンを取得することができる。
 本発明の第11態様に係る情報処理装置において、第1辞書は、病変を示す複数の診断名を有する診断名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書を含み、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像に基づいて病変及び内視鏡による処置に使用する処置具のうちの少なくとも1つを認識し、病変又は処置具の認識結果に基づいて診断名辞書又は処置具名辞書を選択し、認識した識別文字に基づいて選択した辞書から識別文字に対応する記録情報を取得することが好ましい。使用する辞書が自動的に選択されることで、音声認識する識別文字の候補を絞り込むことができ、音声認識の誤認識を抑制することができる。
 本発明の第12態様に係る情報処理装置において、プロセッサは、内視鏡検査時にウエイクワードを示す音声を認識すると、その後に発話される識別文字を示す音声を認識することが好ましい。これにより、ユーザの意図しない音声が認識されないようにすることができる。
 本発明の第13態様に係る情報処理装置において、第1辞書は、病変を示す複数の診断名を有する診断名辞書、内視鏡による処置を示す複数の処置名を有する処置名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書のうちの少なくとも1つを含み、ウエイクワードは、診断名辞書、処置名辞書、及び処置具名辞書のうちの少なくとも1つの辞書を特定するワードであり、プロセッサは、認識した識別文字に基づいてウエイクワードにより特定された辞書から識別文字に対応する記録情報を取得することが好ましい。これにより、ユーザの意図しない音声が認識されないようにすることができ、同時に辞書が特定されるため、音声認識する識別文字の候補を絞り込むことができ、音声認識の誤認識を抑制することができる。
 本発明の第14態様に係る情報処理装置において、内視鏡検査時に内視鏡画像が表示される第1表示装置とは独立した第2表示装置を更に備え、プロセッサは、内視鏡検査時に第2表示装置に第1辞書を表示することが好ましい。これにより、ユーザは、第1辞書を見ながら所望の記録情報に関連付けられた識別文字を確認し、確認した識別文字を示す音声を発話することができる。
 本発明の第15態様に係る情報処理装置において、プロセッサは、ユーザが発話する音声の認識結果及び取得した記録情報のうちの少なくとも一方を第2表示装置に表示することが好ましい。
 本発明の第16態様に係る情報処理装置において、内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生するマスキング音発生装置を更に備えることが好ましい。
 第17態様に係る発明は、本発明の第1態様から第15態様のうちのいずれかの情報処理装置を備えたタブレット端末である。
 第18態様に係る発明は、プロセッサと、内視鏡検査に関連する記録情報が登録された第1辞書と、を備えた情報処理装置の作動方法であって、第1辞書は、記録情報とは異なる識別文字と記録情報とが直接的又は間接的に関連付けられて構成され、プロセッサが、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識するステップと、プロセッサが、認識した識別文字に基づいて第1辞書から識別文字に対応する記録情報を取得するステップと、を含む情報処理装置の作動方法である。
 第19態様に係る発明は、第18態様に係る情報処理装置の作動方法をコンピュータに実行させる情報処理プログラムである。
 第20態様に係る発明は、非一時的かつコンピュータ読取可能な記録媒体であって、本発明の第19態様に係る情報処理プログラムが記録された記録媒体である。
 本発明によれば、内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる。
図1は、本発明に係る情報処理装置として機能するタブレット端末及び内視鏡システムを含むシステム構成図である。 図2は、図1に示した内視鏡システムを構成するプロセッサ装置のハードウェア構成の実施形態を示すブロック図である。 図3は、図1に示した内視鏡システムを構成する第1表示装置の表示画面の一例を示す図である。 図4は、図1に示したタブレット端末のハードウェア構成の実施形態を示すブロック図である。 図5は、タブレット端末の第1実施形態を示す機能ブロック図である。 図6は、タブレット端末のメモリに保存された第1辞書である診断名辞書の一例を示す図である。 図7は、タブレット端末のメモリに保存された第1辞書である処置名辞書の一例を示す図である。 図8は、タブレット端末のメモリに保存された第1辞書である処置具名辞書の一例を示す図である。 図9は、タブレット端末の第2実施形態を示す機能ブロック図である。 図10は、タブレット端末のメモリに保存された第2辞書である診断名辞書の一例を示す図である。 図11は、タブレット端末のメモリに保存された第2辞書である処置名辞書の一例を示す図である。 図12は、タブレット端末のメモリに保存された第2辞書である処置具名辞書の一例を示す図である。 図13は、タブレット端末のメモリに保存された第3辞書の一例を示す図である。 図14は、タブレット端末を使用して第3辞書を作成する手順を示すフローチャートである。 図15は、タブレット端末における第1辞書の有効/無効の設定及び記録情報の取得の流れを示すフローチャートである。 図16は、タブレット端末における第1辞書の有効/無効を自動設定する一例を示すフローチャートである。 図17は、タブレット端末における第1辞書の有効/無効を自動設定する他の例を示すフローチャートである。 図18は、タブレット端末が音声認識エンジンを取得する手順を示すフローチャートである。 図19は、ウエイクワードの音声認識を活用する一例を示すフローチャートである。 図20は、ウエイクワードの音声認識を活用する他の例を示すフローチャートである。 図21は、診断名辞書及び処置具名辞書の自動選択の一例を示すフローチャートである。 図22は、内視鏡検査時におけるタブレット端末の表示画面の一例を示す図である。 図23は、図22の表示画面に表示される第1辞書の一例を示す図である。 図24は、マスキング音発生装置が配置された診察室の一例を示す図である。
 以下、添付図面に従って本発明に係る情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体の好ましい実施形態について説明する。
 [システム構成]
 図1は、本発明に係る情報処理装置として機能するタブレット端末及び内視鏡システムを含むシステム構成図である。
 図1において、内視鏡システム1は、内視鏡スコープ10と、プロセッサ装置20と、光源装置30と、第1表示装置40とから構成されており、従来のシステムを適用することができる。
 情報処理装置として機能するタブレット端末100は、内視鏡システム1が搭載された台車に取り付けられている。タブレット端末100は、クラウドサーバ(サーバ)2とネットワーク3を介して接続され、後述するようにクラウドサーバ2から音声認識エンジンをダウンロードすることができるようになっている。
 [プロセッサ装置]
 図2は、図1に示した内視鏡システムを構成するプロセッサ装置のハードウェア構成の実施形態を示すブロック図である。
 図2に示すプロセッサ装置20は、内視鏡画像取得部21、プロセッサ22、メモリ23、表示制御部、入出力インターフェース25、及び操作部36から構成されている。
 内視鏡画像取得部21は、内視鏡スコープ10が接続されるコネクタを含み、内視鏡スコープ10の先端部に配設された撮像素子により撮像された内視鏡画像(動画)を内視鏡スコープ10からコネクタを介して取得する。また、プロセッサ装置20は、内視鏡スコープ10の手元操作部での操作によるリモート信号を内視鏡スコープ10が接続されるコネクタを介して取得する。リモート信号には、静止画撮影を指示するレリーズ信号、観察モードを切り替える観察モード切替え信号等を含む。
 プロセッサ22は、CPU(Central Processing Unit)等から構成され、プロセッサ装置20の各部を統括制御するとともに、内視鏡スコープ10から取得した内視鏡画像の画像処理、内視鏡画像から病変をリアルタイムで認識するAI(Artificial Intelligence)処理、及び内視鏡スコープ10を介して取得するレリーズ信号による静止画の取得及び保存処理等を行う処理部として機能する。
 メモリ23は、フラッシュメモリ、ROM(Read-only Memory)、及びRAM(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ROM又はハードディスク装置は、プロセッサ22が実行する各種のプログラム等を記憶する不揮発性メモリである。RAMは、プロセッサ22による処理の作業領域として機能し、また、フラッシュメモリ等に格納されたプログラム等を一時的に記憶する。尚、プロセッサ22が、メモリ23の一部(RAM)を内蔵していてもよい。また、内視鏡検査中に撮影された静止画は、メモリ23に保存することができる。
 表示制御部24は、プロセッサ22から加えられる画像処理後のリアルタイムの内視鏡画像(動画)、静止画、及びプロセッサ22により処理された各種の情報(例えば、病変領域の情報、観察部位の情報、音声認識の状態)に基づいて表示用画像を生成し、表示用画像を第1表示装置40に出力する。
 図3は、図1に示した内視鏡システムを構成する第1表示装置の表示画面の一例を示す図である。
 図3に示すように第1表示装置40の画面40Aは、主表示領域A1と副表示領域A2とを有し、主表示領域A1には、内視鏡画像I(動画)が表示される。また、プロセッサ22により病変が認識された場合、画像診断をサポートするために、病変の領域を囲むバウンディングボックス等が表示することができる。
 画面40Aの副表示領域A2には、内視鏡検査に関する各種の情報が表示される。図3に示す例では、患者に関する情報Ip、及び内視鏡検査中に撮影された内視鏡画像の静止画Isが表示されている。静止画Isは、例えば、画面40Aの上から下に向かって撮影された順に表示される。
 また、プロセッサ22は、第1表示装置40の画面40Aに、後述する音声認識の状態を示すアイコン42、撮影中の観察部位を示す模式図(シェーマ図)44、及び観察部位名(本例では上行結腸)46を表示させることができる。
 図2に戻って、入出力インターフェース25は、外部機器と有線及び/又は無線接続する接続部、及びネットワークと接続可能な通信部等を含む。本例では、プロセッサ装置20は、入出力インターフェース25を介してタブレット端末100と無線接続され、必要な情報の送受信を行う。
 また、入出力インターフェース25には、図示しないフットスイッチが接続される。フットスイッチは、術者の足元に置かれて、足で操作される操作デバイスであり、ペダルを踏み込むことで操作信号をプロセッサ装置20に送信する。プロセッサ装置20は、入出力インターフェース25を介して図示しないストレージと接続される。図示しないストレージは、プロセッサ装置20にLAN(Local Area Network)等で接続した外部記憶装置であり、例えば、PACS(Picture Archiving and Communication System)等の内視鏡画像をファイリングするシステムのファイルサーバや、NAS(Network Attached Storage)等である。
 操作部26は、電源スイッチ、ホワイトバランスや光量、ズーミングなどを手動で調整するスイッチや、種々のモードを設定するためのスイッチ等を含む。
 光源装置30は、内視鏡スコープ10がコネクタを介して接続されることで、内視鏡スコープ10のライトガイドへ照明光を供給する。照明光は、白色光(白色の波長帯域の光又は複数の波長帯域の光)、或いは1又は複数の特定の波長帯域の光、或いはこれらの組み合わせなど観察目的に応じた各種波長帯域の光が選択される。尚、特定の波長帯域は、白色の波長帯域よりも狭い帯域である。各種波長帯域の光の選択は、観察モードの選択スイッチにより行うことができる。
 [タブレット端末のハードウェア構成]
 図4は、図1に示したタブレット端末のハードウェア構成の実施形態を示すブロック図である。
 図4に示すタブレット端末100は、プロセッサ110、メモリ120、第2表示装置130、及び入出力インターフェース140から構成されている。
 プロセッサ110は、CPU等から構成され、タブレット端末100の各部を統括制御するとともに、内視鏡検査時にユーザが発話する音声を認識する処理部、及び音声認識結果に基づいて内視鏡検査に関連して記録する記録情報を取得する処理部として機能する。
 メモリ120は、フラッシュメモリ、ROM(Read-only Memory)、及びRAM(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ROM又はハードディスク装置は、プロセッサ110が実行する本発明に係る情報処理プログラム、音声認識エンジン等の各種のプログラム、及び本発明に係る第1辞書等を記憶する不揮発性メモリである。RAMは、プロセッサ110による処理の作業領域として機能し、また、フラッシュメモリ等に格納されたプログラム等を一時的に記憶する。尚、プロセッサ110が、メモリ120の一部(RAM)を内蔵していてもよい。また、内視鏡検査中に撮影された内視鏡画像(静止画)及びプロセッサ110が取得した記録情報は、メモリ23に保存することができる。
 第2表示装置130は、タッチパネル付きのディスプレイであり、プロセッサ110により認識された音声認識結果、プロセッサ110が取得した記録情報、及び第1辞書等を表示し、画面のタッチにより各種の指示及び情報を受け付けるGUI(Graphical User Interface)として機能する。
 入出力インターフェース140は、外部機器と有線及び/又は無線接続する接続部、及びネットワークと接続可能な通信部等を含む。本例では、タブレット端末100は、入出力インターフェース140を介してプロセッサ装置20と無線接続され、必要な情報の送受信を行う。
 また、入出力インターフェース140には、マイクロフォン150が接続され、入出力インターフェース140は、マイクロフォン150から音声データを受信する。尚、本例のマイクロフォン150は、ユーザ(医師)の頭部にセットされるワイヤレスヘッドセットであり、内視鏡検査時にユーザが発話する音声を示す音声データを送信する。
 タブレット端末100は、図1に示したようにクラウドサーバ2とネットワーク3を介して接続されるが、入出力インターフェース140の通信部がネットワーク3と接続可能になっている。
 尚、タブレット端末100は、ユーザのみがタブレット端末100の画面が見えるように台車等に取り付けられることが好ましい。一方、内視鏡システム1の第1表示装置40は、ユーザ及び患者の両者が見えるように設置されていることがある。
 [タブレット端末の第1実施形態]
 内視鏡検査を行う場合、ユーザ(医師)は、内視鏡スコープ10を両手で操作し、被写体の管腔臓器内の所望の部位にスコープ先端を移動させ、スコープ先端部に配設された撮像素子により内視鏡画像(動画)の撮影を行う。内視鏡スコープ10により撮影された内視鏡画像は、プロセッサ装置20により画像処理が施された後、図3に示したように第1表示装置40の画面40Aの主表示領域A1に表示される。
 ユーザは、内視鏡検査時に第1表示装置40の画面40Aに表示される内視鏡画像(動画)を確認しながら、スコープ先端の進退操作等を行い、管腔臓器内の観察部位に病変等を発見した場合には、静止画撮影を指示するレリーズボタンを操作して観察部位の静止画撮影を実行し、また、診断、及び内視鏡による処置等を行う。尚、プロセッサ装置20は、前述したように内視鏡画像から病変をリアルタイムで認識するAI処理等を行い、診断支援を行うことができる。
 タブレット端末100は、上記のように内視鏡検査中に、内視鏡検査に関連して記録する記録情報をユーザが発話する音声に基づいて取得し、静止画に関連付けて記録するための機器である。
 図5は、タブレット端末の第1実施形態を示す機能ブロック図であり、特にプロセッサ110に関して示している。
 図5に示すようにプロセッサ110は、メモリ120に記憶された情報処理プログラム及び音声認識エンジンを実行することで、音声認識エンジン112による音声認識部、記録情報取得部114、及び記録処理部116として機能する。
 ユーザは、内視鏡検査時に病変を発見すると、病変が写っている内視鏡画像(静止画)を撮影し、また、内視鏡画像と関連付けて記録する記録情報(例えば、診断名、内視鏡による処置名、及び処置に使用した処置具名等)とは異なる識別文字を示す音声を発話する。
 ヘッドセットのマイクロフォン150は、ユーザが発話した音声を電気信号(音声データ)に変換する。音声データ102は、入出力インターフェース140により受信され、プロセッサ110に入力される。
 プロセッサ110は、音声認識エンジン112により記録情報に対応する識別文字を示す音声データを、識別文字(テキストデータ)に変換する。即ち、プロセッサ110は、ユーザが発話する、識別文字を示す音声を認識する。
 記録情報取得部114は、音声認識エンジン112が音声認識した識別文字に基づいて、メモリ120内の第1辞書122から識別文字に対応する記録情報を取得する(読み出す)。
 <第1辞書>
 図6は、タブレット端末のメモリに保存された第1辞書である診断名辞書の一例を示す図である。
 図6に示す第1辞書122は、記録情報として病変を示す診断名を有する診断名辞書であり、発話される識別文字と各診断名とが関連付けられている。
 ここで、発話される識別文字は、1番、2番、3番、…等の数詞、診断名である胃潰瘍の略語MG(Magen Geschwuer)であり、記録情報である診断名とは異なる。
 このように第1辞書122である診断名辞書では、患者に聞かれることが憚られる診断名とは異なる識別文字が、各診断名に関連付けられている。
 本例の場合、ユーザは、診断名を音声操作で記録する場合、診断名を発話する代わりに、診断名に関連付けられた番号を発話し、あるいは診断名の略語を発話する。
 尚、診断名とは異なる識別文字は、番号等の数詞や診断名の略語に限らず、例えば、アルファベットの1文字、アルファベットの1文字と数詞との組合せ等が考えられ、要は、患者が識別文字から診断名を想起できない識別文字であればよい。また、診断名の略語を識別文字として採用する場合には、重病ではない診断名の略語であることが好ましい。
 図7は、タブレット端末のメモリに保存された第1辞書である処置名辞書の一例を示す図である。
 図7に示す第1辞書122は、記録情報として内視鏡による処置を示す処置名を有する処置名辞書であり、発話される識別文字と各処置名とが関連付けられている。
 ここで、発話される識別文字は、内視鏡的粘膜切除術(EMR:Endoscopic mucosal resection)、内視鏡的粘膜下層剥離術(ESD:Endoscopic Submucosal Dissection),コールド・フォーセプス・ポリペクトミー(CFP:Cold Forceps Polypectomy)、コールド・スネア・ポリペクトミー(CSP:Cold Snare Polypectomy)等の内視鏡による処置名の略称である。
 内視鏡による処置名の正式名称は長い名称があり、その一方、これらの処置名の略称は、ユーザが使い慣れているため、発話される識別文字としては処置名の略称が好適である。
 図8は、タブレット端末のメモリに保存された第1辞書である処置具名辞書の一例を示す図である。
 図8に示す第1辞書122は、記録情報として内視鏡による処置に使用する処置具を有する処置具名辞書であり、発話される識別文字と各処置具名とが関連付けられている。
 ここで、発話される識別文字は、高周波スネア、高周波ナイフ、止血クリップ、ジャンボ・コールド・ポリペクトミー鉗子等の処置具名の略称や通称である。処置具名の正式名称は長い名称があり、その一方、これらの処置具名の略称や通称は、ユーザが使い慣れているため、発話される識別文字としては処置名の略称が好適である。
 図5に戻って、記録処理部116は、内視鏡検査時に静止画が撮影されると、プロセッサ装置20から静止画の内視鏡画像104を取得し、また、内視鏡検査時に音声操作により記録情報取得部114が識別文字に基づいて第1辞書122から識別文字に対応する記録情報を取得すると、取得した内視鏡画像104と記録情報とを関連付けてメモリ120に保存する。メモリ120保存された内視鏡画像及び記録情報は、例えば、診断レポートの作成に使用することができる。
 [タブレット端末の第2実施形態]
 図9は、タブレット端末の第2実施形態を示す機能ブロック図であり、特にプロセッサ110に関して示している。尚、図9において、図5に示した第1実施形態のタブレット端末と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 図9に示す第2実施形態のタブレット端末は、主として第1実施形態のタブレット端末の第1辞書122の代わりに、第2辞書124及び第3辞書126を使用する点で相違する。即ち、第1辞書122は、第2辞書124と第3辞書126とから構成される。
 第2辞書124は、記録情報を示す識別情報と記録情報とが関連付けて登録され、第3辞書126は、識別文字と識別情報とが関連付けて登録されており、第2辞書124と第3辞書126が、第1辞書122と同様の役割を果たす。
 プロセッサ110の記録情報取得部114-2は、音声認識エンジン112が音声認識した識別文字に基づいて、メモリ120内の第3辞書126から識別文字に関連付けられた識別情報を取得し、続いて、取得した識別情報に基づいて第2辞書124から識別情報に関連付けられた記録情報を取得する。
 第1辞書122は、記録情報とは異なる識別文字と記録情報とが直接的に関連付けられて構成されているが、第1辞書122が第2辞書124と第3辞書126とにより構成される場合、記録情報とは異なる識別文字と記録情報とは、識別情報を介して間接的に関連付けられる。
 <第2辞書及び第3辞書>
 図10は、タブレット端末のメモリに保存された第2辞書である診断名辞書の一例を示す図である。
 図10に示す第2辞書124である診断名辞書は、記録情報として病変を示す診断名を有する辞書である。この診断名辞書は、内視鏡検査時に診断される全ての診断名が登録された辞書であり、各診断名を特定する識別情報として、例えば、診断名辞書+連続番号とすることができる。
 図11は、タブレット端末のメモリに保存された第2辞書である処置名辞書の一例を示す図である。
 図11に示す第2辞書124である処置名辞書は、記録情報として内視鏡による処置を示す処置名を有する辞書である。この処置名辞書は、内視鏡により処置される全ての処置を示す処置名が登録された辞書であり、各処置名を特定する識別情報として、例えば、処置名辞書+連続番号とすることができる。
 図12は、タブレット端末のメモリに保存された第2辞書である処置具名辞書の一例を示す図である。
 図12に示す第2辞書124である処置具名辞書は、記録情報として内視鏡による処置に使用する処置具を示す処置具名を有する辞書である。この処置具名辞書は、内視鏡による処置に使用される全ての処置具を示す処置具名が登録された辞書であり、各処置具名を特定する識別情報として、例えば、処置具名辞書+連続番号とすることができる。
 図13は、タブレット端末のメモリに保存された第3辞書の一例を示す図である。
 図13に示す第3辞書126は、ユーザが発話する識別文字と識別情報とが関連付けて登録された辞書である。
 図9に示した記録情報取得部114-2は、図13に示す第3辞書126によれば、ユーザが発話する識別文字が「1番」の場合(音声認識エンジン112が「1番」を認識した場合)、第3辞書126から「1番」に関連付けられた識別情報として「診断名辞書の1番」を取得する。そして、取得した「診断名辞書の1番」の識別情報から、図10に示した第2辞書である診断名辞書における「1番」の診断名は、「胃癌」であるため、診断名として「胃癌」を取得する。
 同様に、図13に示す第3辞書126によれば、ユーザが発話する識別文字が「EMR」の場合、第3辞書126から「EMR」に関連付けられた識別情報として「処置名辞書の1番」を取得する。そして、取得した「処置名辞書の1番」の識別情報から、図11に示した第2辞書である処置名辞書における「1番」の処置名は、「内視鏡的粘膜切除術」であるため、処置名として「内視鏡的粘膜切除術」を取得する。
 <第3辞書の作成>
 図14は、タブレット端末を使用して第3辞書を作成する手順を示すフローチャートである。
 ユーザは、タブレット端末100のGUIを使用した操作入力により第3辞書126を新規に作成することができる。この場合、タブレット端末100の第3辞書126を作成する機能により、まず、第2表示装置130に空欄の第3辞書を表示させる(ステップS2)。
 続いて、空欄の第3辞書の識別文字を入力する欄に、ユーザが発話する所望の識別文字(例えば、「1番」)を入力する(ステップS4)。
 ユーザは、入力した識別文字に対応する識別情報の欄に、所望の識別情報(例えば、「診断名辞書の1番」)を入力する(ステップS6)。尚、ユーザは、第2辞書(診断名辞書)の内容をタブレット端末100の画面等により確認することができるものとする。
 このようにして識別文字と識別情報とのペアを入力すると、ユーザは、第3辞書の作成を終了するか否かを判断する(ステップS8)。
 第3辞書の作成を終了させない場合には、ユーザは、引き続きステップS4、ステップS6における入力を繰り返し、第3辞書を作成する。
 ユーザは、第3辞書の作成の終了を選択することで、第3辞書126を完成させ、メモリ120に保存させることができる。
 尚、ユーザは、第3辞書126の編集(識別文字と識別情報とのペアの追加、変更、削除)も同様にして行うことができる。
 また、第3辞書126は、ユーザ毎にユーザ専用の辞書(複数の辞書)としてメモリ120に保存することができる。この場合、第2辞書124は、ユーザ毎に共通に使用することができる。
 [第1辞書の有効/無効の設定及び情報処理装置の作動方法]
 図15は、タブレット端末における第1辞書の有効/無効の設定及び情報処理装置の作動方法による記録情報の取得の流れを示すフローチャートである。
 図1において、第1辞書の有効/無効を設定する(ステップS10)。第1辞書の有効/無効は、タブレット端末100のGUIからの操作入力によりユーザが設定してもよいし、後述するように自動で設定してもよい。
 第1辞書は、図5に示した第1辞書122、及び図9に示した第2辞書124及び第3辞書126からなる第1辞書として機能する辞書を含む。
 また、第1辞書の有効/無効の「有効」の設定とは、第1辞書を使用して診断名等の記録情報を音声操作により取得する設定をいい、「無効」の設定とは、第1辞書を使用し、又は第1辞書を使用せずに診断名等の記録情報を音声操作により取得する設定をいう。
 プロセッサ110は、内視鏡検査時にユーザが発話する音声を音声認識エンジン112により認識する(ステップS20)。
 続いて、プロセッサ110は、認識した音声が第1辞書に登録されている識別文字を示す音声か否かを判別する(ステップS30)。識別文字を示す音声と判別すると「Yes」の場合)、プロセッサ110は、第1辞書から識別文字に対応する記録情報を取得する(ステップS40)。
 これにより、ユーザは、患者に聞かれることが憚られる診断名とは異なる識別文字を発話することで、その識別情報に対応する診断名(記録情報)を取得することができる。また、ユーザが使い慣れている内視鏡による処置名の略称等を識別文字として発話することで、その識別情報に対応する処置名の正式名称(記録情報)を取得することができる。
 一方、ステップS30において、認識した音声が識別文字を示す音声でないと判別すると(「No」の場合)、プロセッサ110は、更に内視鏡検査時に記録する診断名等の記録情報を示す音声か否かを判別する(ステップS50)。認識した音声が記録情報ではないと判別すると、ステップS20に遷移し、認識した音声は、記録情報としては取得されない。プロセッサ110は、認識した音声が記録情報であると判別すると、ステップS60に遷移する。
 プロセッサ110は、ステップS60において、第1辞書が有効に設定されているか否かを判別する。第1辞書が有効に設定されていると判別すると(「Yes」の場合)、ステップS60に遷移する。これにより、認識した音声が記録情報であっても、その記録情報は取得されない。第1辞書が有効に設定されている場合、識別文字の発話により第1辞書を使用して記録情報を取得する場合のみを許可するためである。
 一方、ステップS60において、第1辞書が無効に設定されていると判別すると(「No」の場合)、ステップS70に遷移し、ここで発話された記録情報を取得する。したがって、第1辞書が無効に設定されている場合には、識別文字の発話により第1辞書を使用して記録情報を取得することができるとともに、直接、記録情報を発話した場合もその記録情報を取得することができる。
 <第1辞書の有効/無効の自動設定>
 図16は、タブレット端末における第1辞書の有効/無効を自動設定する一例を示すフローチャートであり、図15に示したステップS10における処理の一例に関して示している。
 図16において、タブレット端末100のプロセッサ110は、内視鏡検査時に内視鏡画像を取得し(ステップS11)、取得した内視鏡画像から特定の種類の被写体が検出されたか否かを判別する(ステップS12)。特定の種類の被写体は、病変であり、例えば、腫瘍性/非腫瘍性のうちの「腫瘍性」を示す被写体とすることができる。尚、腫瘍性/非腫瘍性は、内視鏡画像からAIにより認識することができる。
 そして、プロセッサ110は、特定の種類の被写体が検出されたと判別すると(「Yes」の場合)、第1辞書を有効に設定する(ステップS13)。一方、特定の種類の被写体が検出されない場合(「No」の場合)には、第1辞書は有効に設定されない(無効に設定される)。
 このように、特定の種類の被写体が検出された場合には、自動的に第1辞書が有効に設定され、その結果、記録情報の取得は、識別文字の発話により第1辞書を使用して取得する場合に制限される。例えば、特定の種類の被写体(例えば、腫瘍性の病変)が検出された場合、第1辞書を有効にすることで、患者に聞かれることが憚られる単語(腫瘍性に関連する診断名)の発話により記録情報の取得ができないようにすることができる。
 図17は、タブレット端末における第1辞書の有効/無効を自動設定する他の例を示すフローチャートであり、図15に示したステップS10における処理の他の例に関して示している。
 図17において、タブレット端末100のプロセッサ110は、内視鏡検査時に内視鏡画像を取得し(ステップS11)、取得した内視鏡画像から病変の種類を検出する(ステップS14)。病変の種類は、腫瘍性/非腫瘍性に限らず、例えば、診断名辞書に登録された複数の診断名に対応する複数の病変の種類を含む。また、病変の種類は、内視鏡画像から病変認識AIにより認識することができる。
 プロセッサ110は、検出した病変の種類に応じて第1辞書の有効又は無効を自動的に設定する(ステップS15)。ここで、第1辞書の有効にする病変の種類は、予め設定することができ、例えば、患者に聞かれることが憚られる重病の病変には、第1辞書を有効に設定することができる。
 したがって、内視鏡画像から特定の病変(第1辞書を有効にする病変)が検出された場合には、その特定の病変については自動的に第1辞書が有効に設定される。これにより、例えば、患者に聞かれることが憚られる重病の病変が検出された場合、その病変の診断名を音声操作で取得するためには、診断名とは異なる識別文字を発話して第1辞書から取得することになる。
 尚、図16及び図17に示した第1辞書の有効/無効の自動設定において、内視鏡画像から特定の被写体を検出する処理、及び内視鏡画像から病変の種類を検出する処理は、タブレット端末100のプロセッサ110が行う場合に限らず、プロセッサ装置20が行い、その検出結果をタブレット端末100に送信するようにしてもよい。
 <音声認識エンジンのダウンロード>
 図18は、タブレット端末が音声認識エンジンを取得する手順を示すフローチャートである。
 タブレット端末100は、図1に示したクラウドサーバ2が提供する音声認識エンジンをダウンロードすることができる。ここで、クラウドサーバ2には、複数の音声認識エンジンが準備されており、ユーザは、複数の音声認識エンジンのうちの所望の音声認識エンジンをダウンロードすることが可能である。
 図18において、音声認識エンジンをダウンロードする場合には、ユーザは、タブレット端末100を操作し、音声認識エンジンをダウンロードするためのメニュー画面を表示させる(ステップS100)。メニュー画面には、例えば、ユーザの属性等を入力する入力欄を表示することが好ましい。
 タブレット端末100は、ユーザによるメニュー画面の操作に基づいてユーザから音声認識エンジンの選択を受け付ける(ステップS110)。例えば、メニュー画面にしたがってユーザの属性(使用言語、性別、年齢、地域)等をユーザが入力することで、タブレット端末100は、そのユーザに適した音声認識エンジンの選択を受け付ける。使用言語の入力により、日本語、英語等の音声認識エンジンの選択が可能であり、性別及び年齢の入力により該当する性別及び年齢の音声の認識に適した音声認識エンジンの選択が可能である。また、地域の入力によりその地域で使用される音声のイントネーションに適した音声認識エンジンの選択が可能である。
 音声認識エンジンの選択を受け付けると、タブレット端末100はクラウドサーバ2に接続し、クラウドサーバ2から選択した音声認識エンジンをダウンロードする(ステップS120)。
 これにより、タブレット端末側で予め音声認識エンジンを準備する必要がなく、ユーザの属性に適した音声認識エンジンを取得することができる。尚、クラウドサーバ2側で、最新の音声認識エンジンが開発された場合には、クラウドサーバ2からユーザに通知し、ユーザは、最新の音声認識エンジンに更新することができる。
 <ウエイクワードの活用>
 図19は、ウエイクワードの音声認識を活用する一例を示すフローチャートである。
 例えば、図15に示したステップS20において、内視鏡検査時にウエイクワード(wake word)を示す音声を認識すると、タブレット端末100は、ウエイクワードの音声認識をトリガーとして、その後に発話される識別文字等を示す音声の認識を開始する。尚、音声認識エンジンには、予めウエイクワードが設定されているものとする。
 タブレット端末100のプロセッサ110は、音声認識エンジンが音声認識した文字が、ウエイクワードか否かを判別する(ステップS21)。ウエイクワードと判別した場合(「Yes」の場合)、プロセッサ110は、ウエイクワード後に発話される音声を音声認識エンジンにより認識させ、その認識結果を識別文字として取得する。
 識別文字は、短い語句である場合が想定され、ユーザが意図しない場面で発話される可能性があるが、ウエイクワードを識別文字の音声を認識する場合のトリガーとすることで、識別文字をより精度よく認識することができる。
 図20は、ウエイクワードの音声認識を活用する他の例を示すフローチャートである。
 本例のウエイクワードとして、例えば「診断」、「処置」、「処置具」の複数のウエイクワードを設定する。
 図20において、タブレット端末100のプロセッサ110は、音声認識エンジンが音声認識した文字が、ウエイクワードか否かを判別する(ステップS21)。ウエイクワードと判別した場合(「Yes」の場合)、プロセッサ110は、ウエイクワードが「診断」を示すか否か、及び「処置」を示すか否かを判別する(ステップS23、S24)。
 ウエイクワードが「診断」と判別されると、プロセッサ110は、診断名辞書を特定し(ステップS25)、ウエイクワードが「処置」と判別されると、プロセッサ110は、処置名辞書を特定し(ステップS26)、ウエイクワードが「診断」、「処置」以外(即ち、「処置具」)」と判別されると、プロセッサ110は、処置具名辞書を特定する(ステップS27)。
 プロセッサ110は、ウエイクワード後の発話から認識した識別文字に基づいてウエイクワードにより特定された辞書から識別文字に対応する記録情報を取得することができる。
 タブレット端末100は、ウエイクワードの音声認識をトリガーとして、その後に発話される識別文字等を示す音声の認識を開始する点で、図19の場合と同様であるが、更に、ウエイクワードの種類により辞書を特定するようにしたため、音声認識する識別文字の候補を特定した辞書内に絞り込むことができ、音声認識の誤認識を抑制することができる。
 尚、ウエイクワードは、診断名辞書、処置名辞書、及び処置具名辞書のうちの少なくとも1つの辞書を特定するワードでもよい。
 <辞書の選択>
 図21は、診断名辞書及び処置具名辞書の自動選択の一例を示すフローチャートである。
 図20に示した例では、ウエイクワードの種類に応じて辞書を特定(選択)するようにしたが、図21に示す辞書の自動選択は、内視鏡画像に基づいて行う。
 図21において、タブレット端末100のプロセッサ110は、内視鏡画像を取得する(ステップS200)。プロセッサ110は、取得した内視鏡画像に病変が写っているか否か、又は処置具が写っているか否かを認識する(ステップS210、S220)。これらの病変、処置具の認識は、内視鏡画像からAI認識により行うことができる。
 プロセッサ110は、内視鏡画像から病変を認識すると、診断名辞書を選択し(ステップS240)、内視鏡画像から処置具を認識すると、処置具名辞書を選択する(ステップS242)。
 プロセッサ110は、病変及び処置具の少なくとも1つの認識結果に基づいて診断名辞書又は処置具名辞書を選択し、認識した識別文字に基づいて選択した辞書から識別文字に対応する記録情報を取得することができる。尚、プロセッサ110は、内視鏡画像から処置具を認識すると、処置名辞書を選択してもよい。
 <辞書等の表示>
 図22は、内視鏡検査時におけるタブレット端末の表示画面の一例を示す図である。
 ユーザが発話する識別文字と、その識別文字に対応する診断名等の記録情報との関係が不明の場合、ユーザは、所望の記録情報を取得する場合に対応する識別文字を示す音声を発話することができない。
 図22に示すタブレット端末100は、内視鏡検査時に第2表示装置130の表示画面に第1辞書を表示する。
 図23は、図22の表示画面に表示される第1辞書の一例を示す図である。
 図23に示す第1辞書は、ユーザが発話する識別文字と、識別文字に関連付けられた記録情報とを有している。また、図23に示す第1辞書は、診断名、処置名、及び処置具名が混在している辞書であるが、診断名辞書、処置名辞書、及び処置具名辞書の3つの辞書で構成されたものでもよい。
 第1辞書が、診断名辞書、処置名辞書、及び処置具名辞書の3つの辞書で構成されている場合、診断名辞書は、タブレット端末100の第2表示装置130に表示し、処置名辞書及び処置具名辞書は、内視鏡システム1の第1表示装置40の画面40Aの副表示領域A2に表示するようにしてもよい。
 前述したようにタブレット端末100は、ユーザ(医師)のみがタブレット端末100の画面が見えるように設定することが可能であるため、タブレット端末100に診断名辞書を表示しても患者は、識別文字を示す音声と診断名とを結びつけることができないからである。
 また、図20に示したように診断名辞書、処置名辞書、及び処置具名辞書のいずれかの辞書が特定され、又は図21に示したように診断名辞書又は処置具名辞書が選択された場合には、特定され又は選択された辞書を、タブレット端末100に表示するようにしてもよい。
 更に、タブレット端末100のプロセッサは、ユーザが発話する音声の認識結果、及び取得した記録情報のうちの少なくとも一方を、第2表示装置130に表示することができる。図22に示す例では、音声の認識結果は「1番」であり、「1番」に関連付けられた記録情報は「胃癌」である。
 これにより、ユーザは、音声認識エンジンによりユーザの発話が正しく音声認識されたか否かを確認することができ、また、内視鏡検査時に内視鏡画像に関連付けて記録する記録情報も確認することができる。
 ユーザは、記録情報の確認後、フットスイッチを操作することで、内視鏡画像と記録情報とを関連付けてメモリ120に保存させることができる。
 <マスキング音発生装置>
 図24は、マスキング音発生装置が配置された診察室の一例を示す図である。
 図24において、200は、内視鏡検査時に患者が横臥するベッドであり、300は、マスキング音発生装置である。
 ユーザ(医師)は、内視鏡検査時にマイクロフォン150に向かって発話するが、マスキング音発生装置300は、内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生する。
 ワイヤレスヘッドセットのマイクロフォン150は、ユーザの口元に位置するため、ユーザが小声で発話してもマスキング音に阻害されることなく、ユーザの音声を検出することができる。
 マスキング音発生装置300は、ヤマハ株式会社のスピーチプライバシーシステム(VSP-1,VSP-2)を使用することができる。
 マスキング音発生装置300は、内視鏡検査時にマスキング音を発生させることで、患者に医師の発話が聞こえないようにし、又は聞こえにくくし、また、マスキング音として患者をリラックスさせる環境音を発生せることができる。
 [その他]
 本実施形態では、情報処理装置として、プロセッサ装置20とは独立したタブレット端末100を使用する場合について説明したが、プロセッサ装置20が、本実施形態のタブレット端末100の一部の機能、又は全部の機能を備えていてもよい。
 また、本発明に係る情報処理装置の各種制御を実行するハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の制御部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の制御部を1つのプロセッサで構成してもよい。複数の制御部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の制御部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の制御部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の制御部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 また、本発明は、コンピュータにインストールされることにより、コンピュータを本発明に係る情報処理装置として機能させる情報処理プログラム、及びこの情報処理プログラムが記録された非一時的かつコンピュータ読取可能な記録媒体を含む。
 更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
1 内視鏡システム
2 クラウドサーバ
3 ネットワーク
10 内視鏡スコープ
20 プロセッサ装置
21 内視鏡画像取得部
22 プロセッサ
23 メモリ
24 表示制御部
25 入出力インターフェース
26 操作部
30 光源装置
36 操作部
40 第1表示装置
40A 画面
42 アイコン
100 タブレット端末
102 音声データ
104 内視鏡画像
110 プロセッサ
112 音声認識エンジン
114、114-2 記録情報取得部
116 記録処理部
120 メモリ
122 第1辞書
124 第2辞書
126 第3辞書
130 第2表示装置
140 入出力インターフェース
150 マイクロフォン
200 ベッド
300 マスキング音発生装置
A1 主表示領域
A2 副表示領域
AI 病変認識
I 内視鏡画像
Ip 情報
Is 静止画
S2~S8、S10~S70、S100~S120、S200~S240 ステップ

Claims (20)

  1.  プロセッサと、内視鏡検査に関連して記録する記録情報が登録された第1辞書と、を備えた情報処理装置であって、
     前記第1辞書は、前記記録情報とは異なる識別文字と前記記録情報とが直接的又は間接的に関連付けられて構成され、
     前記プロセッサは、
     内視鏡検査時にユーザが発話する音声であって、前記識別文字を示す音声を認識し、
     前記認識した前記識別文字に基づいて前記第1辞書から前記識別文字に対応する前記記録情報を取得する、
     情報処理装置。
  2.  前記プロセッサは、
     前記内視鏡検査時に前記記録情報と関連する内視鏡画像を取得し、
     前記取得した内視鏡画像と前記記録情報とを関連付けてメモリに保存する、
     請求項1に記載の情報処理装置。
  3.  前記第1辞書は、前記記録情報として病変を示す診断名を有する診断名辞書、前記記録情報として内視鏡による処置を示す処置名を有する処置名辞書、及び前記記録情報として内視鏡の処置具を示す処置具名を有する処置具名辞書のうちの少なくとも1つを含む、
     請求項1又は2に記載の情報処理装置。
  4.  前記識別文字は、数詞、アルファベットの1文字、及び前記記録情報を示す略称又は通称のうちの少なくとも1つを含む、
     請求項1から3のいずれか1項に記載の情報処理装置。
  5.  前記第1辞書は、前記記録情報を示す識別情報と前記記録情報とが関連付けて登録された第2辞書と、前記識別文字と前記識別情報とが関連付けて登録された第3辞書と、から構成され、
     前記プロセッサは、前記認識した前記識別文字に基づいて前記第3辞書から前記識別文字に関連付けられた前記識別情報を取得し、
     前記取得した前記識別情報に基づいて前記第2辞書から前記識別情報に関連付けられた前記記録情報を取得する、
     請求項1から4のいずれか1項に記載の情報処理装置。
  6.  GUI(Graphical User Interface)を更に備え、
     前記プロセッサは、
     前記GUIからの操作入力により前記第3辞書を新規に作成し、又は前記第3辞書の登録内容を編集する、
     請求項5に記載の情報処理装置。
  7.  GUI(Graphical User Interface)を更に備え、
     前記プロセッサは、
     前記GUIからの操作入力により前記第1辞書の有効又は無効を設定する、
     請求項1から6のいずれか1項に記載の情報処理装置。
  8.  前記プロセッサは、
     前記内視鏡検査時に内視鏡画像を取得し、
     前記内視鏡画像から特定の種類の被写体を検出すると、前記第1辞書を有効にする、
     請求項1から6のいずれか1項に記載の情報処理装置。
  9.  前記プロセッサは、
     前記内視鏡検査時に内視鏡画像を取得し、
     前記内視鏡画像から病変の種類を検出し、
     前記検出した病変の種類に応じて前記第1辞書の有効又は無効を設定する、
     請求項1から6のいずれか1項に記載の情報処理装置。
  10.  音声認識エンジンを提供するサーバと通信する通信部を更に備え、
     前記プロセッサは、
     前記サーバから前記通信部を介して前記音声認識エンジンをダウンロードし、又は更新し、
     前記ダウンロード又は更新した前記音声認識エンジンにより前記ユーザが発話する音声を認識する、
     請求項1から9のいずれか1項に記載の情報処理装置。
  11.  前記第1辞書は、病変を示す複数の診断名を有する診断名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書を含み、
     前記プロセッサは、
     前記内視鏡検査時に内視鏡画像を取得し、
     前記内視鏡画像に基づいて病変及び内視鏡による処置に使用する処置具のうちの少なくとも1つを認識し、
     前記病変又は前記処置具の認識結果に基づいて前記診断名辞書又は前記処置具名辞書を選択し、
     前記認識した前記識別文字に基づいて前記選択した辞書から前記識別文字に対応する前記記録情報を取得する、
     請求項1から10のいずれか1項に記載の情報処理装置。
  12.  前記プロセッサは、
     前記内視鏡検査時にウエイクワードを示す音声を認識すると、その後に発話される前記識別文字を示す音声を認識する、
     請求項1から11のいずれか1項に記載の情報処理装置。
  13.  前記第1辞書は、病変を示す複数の診断名を有する診断名辞書、内視鏡による処置を示す複数の処置名を有する処置名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書のうちの少なくとも1つを含み、
     前記ウエイクワードは、前記診断名辞書、前記処置名辞書、及び前記処置具名辞書のうちの少なくとも1つの辞書を特定するワードであり、
     前記プロセッサは、前記認識した前記識別文字に基づいて前記ウエイクワードにより特定された辞書から前記識別文字に対応する前記記録情報を取得する、
     請求項12に記載の情報処理装置。
  14.  前記内視鏡検査時に内視鏡画像が表示される第1表示装置とは独立した第2表示装置を更に備え、
     前記プロセッサは、前記内視鏡検査時に前記第2表示装置に前記第1辞書を表示する、
     請求項1から13のいずれか1項に記載の情報処理装置。
  15.  前記プロセッサは、ユーザが発話する音声の認識結果及び前記取得した前記記録情報のうちの少なくとも一方を前記第2表示装置に表示する、
     請求項14に記載の情報処理装置。
  16.  前記内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生するマスキング音発生装置を更に備えた、
     請求項1から14のいずれか1項に記載の情報処理装置。
  17.  請求項1から15のいずれか1項に記載の情報処理装置を備えたタブレット端末。
  18.  プロセッサと、内視鏡検査に関連する記録情報が登録された第1辞書と、を備えた情報処理装置の作動方法であって、
     前記第1辞書は、前記記録情報とは異なる識別文字と前記記録情報とが直接的又は間接的に関連付けられて構成され、
     前記プロセッサが、内視鏡検査時にユーザが発話する音声であって、前記識別文字を示す音声を認識するステップと、
     前記プロセッサが、前記認識した前記識別文字に基づいて前記第1辞書から前記識別文字に対応する前記記録情報を取得するステップと、
     を含む情報処理装置の作動方法。
  19.  請求項18に記載の情報処理装置の作動方法をコンピュータに実行させる情報処理プログラム。
  20.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項19に記載の前記情報処理プログラムが記録された記録媒体。
PCT/JP2022/040671 2021-12-27 2022-10-31 情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体 WO2023127292A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021212815 2021-12-27
JP2021-212815 2021-12-27

Publications (1)

Publication Number Publication Date
WO2023127292A1 true WO2023127292A1 (ja) 2023-07-06

Family

ID=86998757

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040671 WO2023127292A1 (ja) 2021-12-27 2022-10-31 情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023127292A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014174255A (ja) * 2013-03-07 2014-09-22 Sony Corp 信号処理装置、信号処理方法及び記憶媒体
JP2016021216A (ja) * 2014-06-19 2016-02-04 レイシスソフトウェアーサービス株式会社 所見入力支援システム、装置、方法およびプログラム
WO2021033303A1 (ja) * 2019-08-22 2021-02-25 Hoya株式会社 訓練データ生成方法、学習済みモデル及び情報処理装置
KR20210059638A (ko) * 2019-11-15 2021-05-25 이화여자대학교 산학협력단 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014174255A (ja) * 2013-03-07 2014-09-22 Sony Corp 信号処理装置、信号処理方法及び記憶媒体
JP2016021216A (ja) * 2014-06-19 2016-02-04 レイシスソフトウェアーサービス株式会社 所見入力支援システム、装置、方法およびプログラム
WO2021033303A1 (ja) * 2019-08-22 2021-02-25 Hoya株式会社 訓練データ生成方法、学習済みモデル及び情報処理装置
KR20210059638A (ko) * 2019-11-15 2021-05-25 이화여자대학교 산학협력단 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치

Similar Documents

Publication Publication Date Title
US8010368B2 (en) Surgical system controlling apparatus and surgical system controlling method
US20080133233A1 (en) Medical assistance device
JP4832770B2 (ja) 医療支援システム
JP4615897B2 (ja) 超音波イメージングで使用するための自動注釈埋め込み装置のシステム及び方法
JP2001104336A (ja) 汎用分散手術室制御システム
US11482318B2 (en) Medical information processing system
JP2004275360A (ja) 内視鏡システム
WO2019017208A1 (ja) 手術システム、制御方法、手術機器、並びにプログラム
WO2023127292A1 (ja) 情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体
JP6744175B2 (ja) 医用画像表示装置及び読影レポート作成支援装置
CN112118415B (zh) 远程诊疗方法、装置和患者侧终端、医生侧终端
JP2020089641A (ja) 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム
JP2006221583A (ja) 医療支援システム
JP2003084794A (ja) 音声制御システム
JPWO2021033303A1 (ja) 訓練データ生成方法、学習済みモデル及び情報処理装置
JP7146318B1 (ja) コンピュータプログラム、学習モデルの生成方法、及び手術支援装置
US20220130533A1 (en) Medical support device, operation method of medical support device, and medical support system
KR102453580B1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
JP3725808B2 (ja) 医療機器制御装置
JP4727066B2 (ja) 内視鏡システム
WO2021039101A1 (ja) 超音波内視鏡システムおよび超音波内視鏡システムの作動方法
JP2006218230A (ja) 医療用システム
JP2000005158A (ja) 医用診断装置
JP4005320B2 (ja) 医療用制御システム
JP2005111081A (ja) 内視鏡画像表示処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22915525

Country of ref document: EP

Kind code of ref document: A1