WO2020121382A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2020121382A1
WO2020121382A1 PCT/JP2018/045370 JP2018045370W WO2020121382A1 WO 2020121382 A1 WO2020121382 A1 WO 2020121382A1 JP 2018045370 W JP2018045370 W JP 2018045370W WO 2020121382 A1 WO2020121382 A1 WO 2020121382A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
line
sight
data
image
Prior art date
Application number
PCT/JP2018/045370
Other languages
English (en)
French (fr)
Inventor
堀内 一仁
渡辺 伸之
金子 善興
英敏 西村
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to JP2020558818A priority Critical patent/JP7171985B2/ja
Priority to PCT/JP2018/045370 priority patent/WO2020121382A1/ja
Publication of WO2020121382A1 publication Critical patent/WO2020121382A1/ja
Priority to US17/340,691 priority patent/US20210297635A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/05Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances characterised by the image sensor, e.g. camera, being in the distal end portion
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/0016Operational features thereof
    • A61B3/0033Operational features thereof characterised by user input arrangements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B21/00Microscopes
    • G02B21/36Microscopes arranged for photographic purposes or projection purposes or digital imaging or video purposes including associated control and data processing arrangements
    • G02B21/365Control or image processing arrangements for digital or video microscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00039Operational features of endoscopes provided with input arrangements for the user
    • A61B1/0004Operational features of endoscopes provided with input arrangements for the user for electronic operation
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/555Constructional details for picking-up images in sites, inaccessible due to their dimensions or hazardous conditions, e.g. endoscopes or borescopes

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program that process voice data and line-of-sight data.
  • the area that the user focused on and the area that the user wants to search may not necessarily match.
  • the present invention has been made in view of the above, and provides an information processing device, an information processing method, and a program that enable a user to accurately and accurately determine an area to be searched in an image. To aim.
  • an information processing apparatus detects the line of sight of a user and, based on line-of-sight data input from the outside, uses the observation image.
  • An analysis unit that analyzes the degree of gaze of a person's line of sight, and voice data that represents the voice of the user that is input from the outside, with respect to voice data that is associated with the same time axis as the line-of-sight data,
  • a setting unit that allocates importance according to the degree of gaze and records the voice data and the importance in a recording unit, and a region of interest setting that sets a region of interest in the observed image according to the degree of gaze and the importance And a section.
  • the setting unit assigns the importance according to the gaze degree and the important word included in the voice data.
  • the information processing device further includes a similar region extraction unit that extracts a region similar to the region of interest in the observed image.
  • the information processing apparatus further includes a similar area extraction unit that extracts an area similar to the attention area in the image group stored in the database.
  • an information processing apparatus includes a line-of-sight detection unit that generates the line-of-sight data by continuously detecting the line-of-sight of the user, and receives the voice of the user to input the voice. And a voice input unit for generating data.
  • the information processing apparatus is capable of changing an observation magnification for observing a sample, and a microscope having an eyepiece unit in which the user can observe an observation image of the sample, and the microscope.
  • An image pickup unit that is connected and generates image data by picking up an observation image of the sample formed by the microscope, and the line-of-sight detection unit is provided in an eyepiece unit of the microscope.
  • the area setting unit sets the attention area according to the observation magnification.
  • An information processing apparatus includes an imaging unit that is provided at a distal end of an insertion unit that can be inserted into a subject and that generates image data by imaging the inside of the subject, and a field of view.
  • the endoscope further includes an operation unit that receives an input of various operations for changing.
  • an information processing method is an information processing method executed by an information processing device, and detects the sight line of a user and externally inputs the sight line data to the observation image. Analyzing the gaze degree of the user's line of sight, which is voice data representing the voice of the user that is input from the outside, and the gaze degree with respect to the voice data associated with the same time axis as the line of sight data. The audio data and the importance are recorded in the recording unit by assigning the importance according to the above, and the attention area is set in the observed image according to the degree of gaze and the importance.
  • the program according to an aspect of the present invention is such that the information processing device analyzes the gaze degree of the user's line of sight with respect to the observed image, based on the line-of-sight data input from the outside by detecting the user's line of sight.
  • Voice data representing the voice of the user that is input from the outside, to the voice data associated with the same time axis as the line-of-sight data, by assigning an importance degree according to the degree of gaze,
  • the voice data and the importance level are recorded in a recording unit, and a region of interest is set in the observation image according to the gaze level and the importance level.
  • an information processing device an information processing method, and a program that enable a user to accurately and accurately determine an area to be searched for in an image.
  • FIG. 1 is a block diagram showing a functional configuration of the information processing system according to the first embodiment.
  • FIG. 2 is a flowchart showing an outline of processing executed by the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram schematically illustrating a setting method of assigning importance to audio data by the setting unit according to the first embodiment.
  • FIG. 4 is a diagram schematically showing an example of an image displayed by the display unit according to the first embodiment.
  • FIG. 5 is a diagram schematically showing another example of the image displayed by the display unit according to the first embodiment.
  • FIG. 6 is a diagram showing how FIG. 5 is divided into regions by image analysis.
  • FIG. 7 is a partially enlarged view of FIG.
  • FIG. 8 is a diagram showing a state in which similar regions are highlighted in FIG. FIG.
  • FIG. 9 is a block diagram showing a functional configuration of the information processing system according to the second embodiment.
  • FIG. 10 is a flowchart showing an outline of processing executed by the information processing apparatus according to the second embodiment.
  • FIG. 11 is a block diagram showing a functional configuration of the information processing system according to the third embodiment.
  • FIG. 12 is a flowchart showing an outline of processing executed by the information processing apparatus according to the third embodiment.
  • FIG. 13 is a diagram schematically illustrating a setting method in which the analysis unit according to the third embodiment sets the degree of importance to the line-of-sight data.
  • FIG. 14 is a diagram schematically showing an example of an image displayed by the display unit according to the third embodiment.
  • FIG. 15 is a schematic diagram showing the configuration of the information processing apparatus according to the fourth embodiment.
  • FIG. 10 is a flowchart showing an outline of processing executed by the information processing apparatus according to the second embodiment.
  • FIG. 11 is a block diagram showing a functional configuration of the information processing system according to the third embodiment.
  • FIG. 16 is a schematic diagram showing the configuration of the information processing apparatus according to the fourth embodiment.
  • FIG. 17 is a block diagram showing the functional configuration of the information processing apparatus according to the fourth embodiment.
  • FIG. 18 is a flowchart showing an outline of processing executed by the information processing apparatus according to the fourth embodiment.
  • FIG. 19 is a diagram illustrating an example of the line-of-sight mapping image displayed by the display unit.
  • FIG. 20 is a diagram showing another example of the line-of-sight mapping image displayed on the display unit.
  • FIG. 21 is a schematic diagram showing the configuration of the microscope system according to the fifth embodiment.
  • FIG. 22 is a block diagram showing the functional configuration of the microscope system according to the fifth embodiment.
  • FIG. 23 is a flowchart showing an outline of processing executed by the microscope system according to the fifth embodiment.
  • FIG. 24 is a schematic diagram showing the configuration of the endoscope system according to the sixth embodiment.
  • FIG. 25 is a block diagram showing the functional configuration of the endoscope system according to the sixth embodiment.
  • FIG. 26 is a flowchart showing an outline of processing executed by the endoscope system according to the sixth embodiment.
  • FIG. 27 is a diagram schematically showing an example of a plurality of images corresponding to a plurality of image data recorded by the image data recording unit.
  • FIG. 28 is a diagram showing an example of an integrated image corresponding to the integrated image data generated by the image processing unit.
  • FIG. 29 is a diagram schematically showing an example of an image displayed by the display unit according to the sixth embodiment.
  • FIG. 30 is a diagram showing a state in which similar regions are highlighted in FIG.
  • Embodiments of an information processing device, an information processing method, and a program according to the present invention will be described below with reference to the drawings.
  • the present invention is not limited to these embodiments.
  • INDUSTRIAL APPLICABILITY The present invention can be applied to an information processing apparatus, an information processing method, and a program in general that perform an image search using line-of-sight data and audio data.
  • FIG. 1 is a block diagram showing a functional configuration of the information processing system according to the first embodiment.
  • the information processing system 1 shown in FIG. 1 displays an information processing apparatus 10 that performs various processes on line-of-sight data, audio data, and image data input from the outside, and various data output from the information processing apparatus 10. And a display unit 20.
  • the information processing device 10 and the display unit 20 are bidirectionally connected by wireless or wire.
  • the information processing apparatus 10 illustrated in FIG. 1 is realized by using a program installed in, for example, a server or a personal computer, and various data is input via a network or various data acquired by an external device is input. Is entered.
  • the information processing device 10 includes an analysis unit 11, a setting unit 12, a generation unit 13, a recording unit 14, and a display control unit 15.
  • the analysis unit 11 detects the user's line of sight and analyzes the gaze degree of the user's line of sight with respect to the observed image based on the line-of-sight data input from the outside for a predetermined time.
  • the line-of-sight data is based on the corneal reflection method.
  • the line-of-sight data is such that the optical sensor, which is the line-of-sight detection unit, displays on the cornea when near-infrared rays are irradiated to the user's cornea from an LED light source or the like provided in a line-of-sight detection unit (eye tracking) not shown. It is the data generated by imaging the pupil points and the reflection points of.
  • the line-of-sight data is the user's pupil point and reflection point based on the analysis result analyzed by performing image processing on the data generated by the optical sensor capturing the pupil point and reflection point on the cornea.
  • the line of sight of the user is calculated from the pattern.
  • the device including the line-of-sight detection unit measures the line-of-sight data
  • the corresponding image data observation image
  • the device including the line-of-sight detection unit displays the measurement region and the absolute coordinates of the image in the line of sight. It suffices that the relative positional relationship of is given as a fixed value.
  • the absolute coordinates refer to the coordinates described with reference to one predetermined point on the image.
  • the visual field presented to detect the line of sight becomes the visual field of the image data, so the relative positional relationship of the observation visual field with respect to the absolute coordinates of the image does not change.
  • the usage mode is recorded as a moving image in the endoscope system or the optical microscope, in order to generate the visual field mapping data, the visual axis detection data and the image recorded or presented at the same time as the visual axis detection are presented. Use the image.
  • the usage type is WSI (Whole Slide Imaging)
  • the user is observing a part of the microscope slide sample as the field of view, and the observation field of view changes with time.
  • which part of the entire image data is presented as the field of view that is, the time information for switching the absolute coordinates of the display area with respect to the entire image data is also recorded in synchronization with the line-of-sight/voice information.
  • the analysis unit 11 detects the user's line of sight and, based on the line-of-sight data for a predetermined time input from the outside, the line-of-sight moving speed, the line-of-sight moving distance within a certain period of time, and the line-of-sight residence time within a certain area.
  • the gaze degree of the line of sight is analyzed by detecting any one of the above.
  • the line-of-sight detection unit may detect the line of sight by picking up the user by being placed in a predetermined place, or by picking up the user by picking up the user. It is also possible to detect the line of sight by doing so.
  • the line-of-sight data may be generated by known pattern matching.
  • the analysis unit 11 is configured by using, for example, a CPU (Central Processing Unit), an FPGA (Field Programmable Gate Array), and a GPU (Graphics Processing Unit).
  • the setting unit 12 responds to the degree of gaze at predetermined time intervals with respect to the voice data that is input from the outside and represents the voice of the user and is associated with the same time axis as the line-of-sight data.
  • the importance is assigned to the audio data, and the audio data and the importance are recorded in the recording unit 14.
  • the setting unit 12 assigns, for each frame of audio data, an importance degree (for example, a numerical value) according to the degree of gaze analyzed by the analysis unit 11 at the same timing of this frame, and determines the importance of the audio data and the importance degree. Are recorded in the recording unit 14 in association with each other.
  • the setting unit 12 assigns a high degree of importance to the voice data immediately after the gaze degree becomes high.
  • the voice data representing the voice of the user input from the outside is generated by a voice input unit such as a microphone (not shown) at the same timing as the line-of-sight data.
  • the setting unit 12 is configured using a CPU, FPGA, GPU, and the like.
  • the generation unit 13 generates the line-of-sight mapping data in which the gaze degree analyzed by the analysis unit 11 is associated with the image corresponding to the image data input from the outside, and the generated line-of-sight mapping data is set in the recording unit 14 and the attention area setting area. Output to the unit 15a. Specifically, the generation unit 13 generates the line-of-sight mapping data in which the gaze degree analyzed by the analysis unit 11 is associated with the coordinate information on the image for each predetermined area on the image corresponding to the image data input from the outside. To do.
  • the generation unit 13 generates the line-of-sight mapping data by associating the trajectory of the line of sight of the user analyzed by the analysis unit 11 with the image corresponding to the image data input from the outside.
  • the generation unit 13 is configured using a CPU, FPGA, GPU, and the like.
  • the generation unit 13 uses the relative positional relationship between the display when measuring the line of sight and the absolute coordinate of the image when obtaining the line-of-sight mapping data as the absolute coordinate of the image as described above. ..
  • the recording unit 14 records the audio data input from the setting unit 12, the importance assigned at predetermined time intervals, and the gaze degree analyzed by the analysis unit 11 in association with each other.
  • the recording unit 14 also records the line-of-sight mapping data input from the generation unit 13.
  • the recording unit 14 also records various programs executed by the information processing apparatus 10 and data being processed.
  • the recording unit 14 is configured by using a volatile memory, a non-volatile memory, a recording medium, and the like.
  • the display control unit 15 includes an attention area setting unit 15a and a similar area extraction unit 15b.
  • the display control unit 15 is configured using a CPU, FPGA, GPU, and the like.
  • the analysis unit 11, the setting unit 12, the generation unit 13, and the display control unit 15 described above may be configured to perform each function by using any one of the CPU, FPGA, and GPU. , CPU, FPGA, and GPU may be combined so that each function can be exhibited.
  • the attention area setting unit 15a sets the attention area in the observation image according to the degree of gaze analyzed by the analysis unit 11 and the importance input from the setting unit 12. Specifically, the attention area setting unit 15a sets an area in which the degree of gaze and the importance are equal to or higher than the threshold value as the attention area.
  • the similar area extracting unit 15b extracts a similar area similar to the attention area in the observed image. Specifically, the similar region extraction unit 15b calculates a feature amount based on the tissue properties such as the tint and shape of the attention region, and if the difference from the feature amount of the attention region in the entire observation image is within a predetermined threshold value. A certain area is extracted as a similar area. Further, the similar region extraction unit 15b may extract a region similar to the attention region from the observed image as a similar region by machine learning using a convolutional neural network (CNN: Convolutional Neural Network) or the like.
  • CNN Convolutional Neural Network
  • the display control unit 15 displays the line-of-sight mapping image in which the line-of-sight mapping data generated by the generation unit 13 is superimposed on the image corresponding to the image data input from the outside, by displaying the line-of-sight mapping image on the external display unit 20.
  • the display control unit 15 also causes the display unit 20 to display an image in which the attention area and the similar area are highlighted in the line-of-sight mapping image.
  • the display unit 20 displays the image corresponding to the image data input from the display control unit 15 and the line-of-sight mapping information corresponding to the line-of-sight mapping data.
  • the display unit 20 is configured using a display monitor such as an organic EL (Electro Luminescence) or liquid crystal.
  • FIG. 2 illustrates processing executed by the information processing device 10.
  • the information processing apparatus 10 acquires line-of-sight data, audio data, and image data input from the outside (step S101).
  • the analysis unit 11 analyzes the degree of gaze of the user's line of sight with respect to the observed image based on the line-of-sight data (step S102). Generally, it can be analyzed that the higher the moving speed of the line of sight, the lower the degree of gaze of the user, and the lower the moving speed of the line of sight, the higher the degree of gaze of the user's line of sight. That is, the analysis unit 11 analyzes that the higher the moving speed of the line of sight of the user, the lower the degree of gaze of the user's line of sight, and the lower the moving speed of the line of sight, the higher the degree of gaze of the user's line of sight. To do.
  • the analysis unit 11 analyzes the gaze degree of the line of sight of the user with respect to the line-of-sight data for each predetermined time (when the user observes or interprets an image).
  • the analysis method of the analysis unit 11 is not limited to this, and detects any one of the moving distance of the line of sight of the user within a certain time period and the staying time of the line of sight of the user within the certain region. Therefore, the degree of gaze of the line of sight may be analyzed.
  • the setting unit 12 performs a setting for the voice data synchronized with the line-of-sight data, assigning the importance degree corresponding to the gaze degree analyzed by the analysis unit 11 to the voice data at predetermined time intervals, and the recording unit It records in 14 (step S103).
  • the information processing device 10 moves to step S104 described later.
  • FIG. 3 is a diagram schematically illustrating a setting method for assigning importance to audio data by the setting unit according to the first embodiment.
  • the horizontal axis represents time
  • the vertical axis in (a) of FIG. 3 represents the degree of gaze
  • the vertical axis in (b) of FIG. 3 represents voice data (extent of sounding; increases when sound is generated). )
  • the vertical axis in (c) of FIG. 3 indicates the degree of importance.
  • a curve L1 in FIG. 3A shows a time change of the gaze degree
  • a curve L2 in FIG. 3B shows a time change of the audio data
  • the setting unit 12 makes a setting for the voice data at a predetermined time interval, assigns the importance degree according to the degree of gaze analyzed by the analysis unit 11 to the voice data, and records the voice data in the recording unit 14. Specifically, in the case shown in FIG. 3, the setting unit 12 sets the importance level (for example, a number, the length of time the line of sight has been staying and A symbol (indicating small or medium size) is assigned to be high and recorded in the recording unit 14. At this time, the setting unit 12 analyzes that the analysis unit 11 has a high degree of gaze when there is a period d1 between the section D1 analyzed by the analysis unit 11 as having a high degree of gaze and the sounding section D2 of the audio data. The assignment is set to the sounding section D2 (for example, a section after 1 second) immediately after the voice data corresponding to the section D1 having a high degree of importance and recorded in the recording unit 14.
  • the sounding section D2 for example, a section after 1 second
  • the time difference between the user's gaze degree and the pronunciation (voice) is calculated in advance (calibration data), and the difference between the user's gaze degree and the pronunciation (voice) is calculated based on this calculation result. You may perform the calibration process which corrects.
  • the delay time is provided in the sections D1 and D2 by paying attention to the temporal shift between the gaze data of the line-of-sight data and the audio data, but as a modified example of FIG.
  • the period 12 may be a period in which the importance of the audio data is high by providing a margin before and after a section in which the gaze data has a high degree of gaze. That is, the setting unit 12 may be configured such that the start time of the section D2 is earlier than the start time of the section D1, and the end time of the section D2 is later than the end time of the section D1.
  • step S104 the attention area setting unit 15a sets the attention area in the observation image according to the degree of gaze analyzed by the analysis unit 11 and the importance input from the setting unit 12.
  • the generation unit 13 generates the line-of-sight mapping data in which the gaze degree analyzed by the analysis unit 11 is associated with the image corresponding to the image data (step S105).
  • the display control unit 15 superimposes the line-of-sight mapping data in which the attention area is highlighted on the image corresponding to the image data, and outputs it to the external display unit 20 (step S106).
  • FIG. 4 is a diagram schematically showing an example of an image displayed by the display unit according to the first embodiment.
  • the display control unit 15 causes the display unit 20 to display the line-of-sight mapping image P1 superimposed on the line-of-sight mapping data in which the attention area is highlighted on the image corresponding to the image data.
  • the gaze mapping image P1 on which the marks M11 to M15 of the gaze level having a larger circle area are superimposed is displayed on the display unit 20.
  • the display controller 15 superimposes or superimposes on the marks M11 to M15 as character information obtained by converting the voice data produced by the user in each gaze degree period (time) using a well-known character conversion technique.
  • the region of interest is highlighted by displaying it on the display unit 20 (for example, the frame is highlighted or displayed with a thick line). That is, the area represented by the mark M14 is the area of interest, and after the user gazed at the area represented by the mark M14, the user uttered the voice "here.” indicated in the character information Q1.
  • the display control unit 15 may display the trajectory K1 of the line of sight of the user and the order of the degree of gaze on the display unit 20 by numbers.
  • FIG. 5 is a diagram schematically showing another example of an image displayed by the display unit according to the first embodiment.
  • the user observes the entire area of the observation image P21 and makes a pathological diagnosis as to whether there is a lesion or the like.
  • FIG. 6 is a diagram showing a state in which FIG. 5 is divided into regions by image analysis. Like the image P22 shown in FIG. 6, FIG. 5 is divided into regions having similar feature amounts according to the feature amount based on the tissue properties such as color and shape.
  • FIG. 7 is a partially enlarged view of FIG. FIG. 7 corresponds to the area A in FIG. The user observed while enlarging the observation image P21, and the area M21 was set as the attention area in the image P23 shown in FIG. 7.
  • step S107 the similar area extracting unit 15b extracts a similar area similar to the attention area in the observed image. Specifically, the similar area extracting unit 15b extracts, in the image P22, an area having a feature amount similar to the attention area M21 as a similar area.
  • the display control unit 15 outputs an image in which the similar region extracted by the similar region extraction unit 15b on the observed image P21 is highlighted to the external display unit 20 (step S108). After step S108, the information processing device 10 ends this process.
  • FIG. 8 is a diagram showing a state in which similar areas are highlighted in FIG. As shown in FIG. 8, an image P24 in which the similar regions M22 to M26 extracted by the similar region extracting unit 15b on the observed image P21 are highlighted (for example, the similar regions are circled) is displayed on the display unit 20.
  • the attention area setting unit 15a sets the attention area, which is the area of interest to the user, based on the gaze degree and the utterance of the user's gaze, and the similar area extraction unit By extracting a similar region 15b that is similar to the region of interest, it is possible to extract a region similar to the lesion or the like that the user wants to search. As a result, it is possible to efficiently diagnose and prevent a lesion from being overlooked.
  • the recording unit 14 since the recording unit 14 records the voice data to which the degree of importance is assigned by the setting unit 12, the correspondence between the image data and the voice based on the line-of-sight mapping used in machine learning such as deep learning is calculated. It is possible to easily acquire learning data when learning.
  • the similar region extracting unit 15b extracts the similar region from the observed image, but in the second embodiment, the similar region extracting unit 15b extracts the similar region from the image group stored in the database.
  • the configuration of the information processing system according to the second embodiment will be described, and then the processing executed by the information processing device according to the second embodiment will be described.
  • the same components as those of the information processing system according to the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be omitted.
  • FIG. 9 is a block diagram showing a functional configuration of the information processing system according to the second embodiment.
  • the information processing system 1a illustrated in FIG. 9 includes an information processing device 10a instead of the information processing device 10 according to the first embodiment described above.
  • the information processing device 10a includes a similar region extracting unit 15ba in place of the similar region extracting unit 15b according to the first embodiment described above.
  • the similar area extracting unit 15ba is connected to the recording device 21.
  • the recording device 21 is, for example, a server connected via an internet line.
  • the recording device 21 is constructed with a database that stores an image group including a plurality of images.
  • the similar area extracting unit 15ba extracts an area similar to the attention area in the image group stored in the database of the recording device 21.
  • FIG. 10 is a flowchart showing an outline of processing executed by the information processing apparatus according to the second embodiment.
  • steps S201 to S206 correspond to steps S101 to S106 of FIG. 2 described above.
  • the user observes any one or a plurality of images recorded in the recording device 21, and the attention area setting unit 15a sets the attention area based on the line of sight and utterance of the user at this time.
  • step S207 the similar area extraction unit 15ba extracts an area similar to the attention area in the image group stored in the database of the recording device 21.
  • the display control unit 15 outputs the image in which the similar region extracted by the similar region extraction unit 15ba is highlighted to the external display unit 20 (step S208). Specifically, the display control unit 15 highlights the similar areas in each image including the similar areas and displays a list.
  • an image including a region similar to the lesion part of the gaze is automatically extracted. This can be done and it is possible to prevent the lesion from being overlooked.
  • the setting unit 12 allocates the audio data to the recording unit by assigning the importance degree according to the gaze degree analyzed by the analysis unit 11, but in the third embodiment, the setting unit 12 Assigns an importance degree according to the degree of gaze and the important word included in the voice data, and records it in the recording unit 14.
  • the processing executed by the information processing device according to the third embodiment will be described.
  • the same components as those of the information processing system according to the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be omitted.
  • FIG. 11 is a block diagram showing a functional configuration of the information processing system according to the third embodiment.
  • An information processing system 1b shown in FIG. 11 includes an information processing device 10b instead of the information processing device 10 according to the first embodiment described above.
  • the information processing device 10b includes a setting unit 12b instead of the setting unit 12 according to the first embodiment described above.
  • the setting unit 12b sets the important period of the voice data representing the user's voice input from the outside. Specifically, the setting unit 12b sets the important period of the voice data representing the user's voice inputted from the outside, based on the important word information inputted from the outside. For example, when the keyword input from the outside is cancer or bleeding, and the indices are “10” and “8”, the setting unit 12b uses the well-known voice pattern matching or the like for the period in which the keyword is issued. Set (section or time) as the important period.
  • the voice data representing the voice of the user input from the outside is generated by a voice input unit such as a microphone (not shown).
  • the setting unit 12b may set the important period to include before and after the period in which the keyword is issued, for example, about 1 to 2 seconds.
  • the setting unit 12b is configured using a CPU, FPGA, GPU, and the like.
  • the important word information may be stored in advance in a database (voice data, character information) or may be input by the user (voice data/keyboard input).
  • FIG. 12 is a flowchart showing an outline of processing executed by the information processing apparatus according to the third embodiment. As shown in FIG. 12, first, the information processing device 10b acquires line-of-sight data, audio data, keywords, and image data input from the outside (step S301).
  • the setting unit 12b determines the utterance period in which the keyword that is the important word is uttered in the voice data based on the keyword input from outside (step S302), and the utterance in which the important word is uttered in the voice data is determined.
  • the period is set to the important period (step S303).
  • the information processing device 10b moves to step S304 described below.
  • FIG. 13 is a diagram schematically illustrating a setting method in which the analysis unit according to the third embodiment sets the degree of importance to the line-of-sight data.
  • the horizontal axis represents time
  • the vertical axis in (a) of FIG. 13 represents the degree of gaze
  • the vertical axis in (b) of FIG. 13 represents audio data (pronunciation level)
  • FIG. The vertical axis of c) indicates the degree of importance.
  • a curve L4 in FIG. 13A shows a time change of the gaze degree
  • a curve L5 in FIG. 13B shows a time change of the audio data
  • the setting unit 12b sets the important period D5 before and after the user's gaze degree is high (section D3) and before and after the period in which the important word is uttered. To do.
  • the setting unit 12b uses the well-known voice pattern matching for the voice data, and the utterance period of the voice data in which this “cancer” is emitted Before and after (speaking time), the important period D5 having high importance is set.
  • the setting unit 12b does not set the period D4 in which the user is uttering a voice but does not include the keyword of the important word as the important period.
  • the setting unit 12b may convert voice data into character information and then set a period corresponding to a keyword for this character information as an important period having high importance. Further, even when the important word is uttered, if there is no section before and after the user having a high degree of gaze, the important period is not set.
  • step S304 FIG. 12 shows the line-of-sight data of the user, which corresponds to the important period of the voice data set by the setting unit 12b for the line-of-sight data associated with the same time axis as the voice data ( Time) is assigned a corresponding line-of-sight period according to an index (for example, in the case of “cancer”, the index is “10”) assigned to the keyword of the important word, and the voice data and the line-of-sight data are synchronized and recorded in the recording unit 14. Record.
  • the information processing device 10b proceeds to step S305 described below.
  • the analysis unit 11 sets the period of the corresponding line-of-sight data based on the period D5 in which the importance level of the voice set by the setting unit 12b is set.
  • the time difference between the user's gaze degree and the pronunciation (voice) is calculated in advance (calibration data), and the difference between the user's gaze degree and the pronunciation (voice) is calculated based on the calculation result.
  • You may perform the calibration process which corrects.
  • the period in which a keyword having a high voice importance is simply uttered may be set as the important period, and the period before or after the certain time period or a shifted period may be set as the corresponding line-of-sight period.
  • step S305 the attention area setting unit 15a sets the attention area in the observation image according to the corresponding line-of-sight period analyzed by the analysis unit 11.
  • step S306 the generation unit 13 generates the line-of-sight mapping data in which the corresponding line-of-sight period analyzed by the analysis unit 11 is associated with the image corresponding to the image data.
  • the display control unit 15 superimposes the line-of-sight mapping data in which the attention area is highlighted on the image corresponding to the image data and outputs it to the external display unit 20 (step S307).
  • FIG. 14 is a diagram schematically showing an example of an image displayed by the display unit according to the third embodiment.
  • the display control unit 15 causes the display unit 20 to display the line-of-sight mapping image P31 superimposed on the line-of-sight mapping data in which the attention area is highlighted on the image corresponding to the image data.
  • the gaze mapping image P31 on which the marks M11 to M15 of the gaze degree having a larger circle area are superimposed is displayed on the display unit 20.
  • the display control unit 15 converts the character information (for example, the messages Q11 to Q13) obtained by converting the voice data uttered by the user in each corresponding line-of-sight period (time) into the mark M11.
  • the display control unit 15 may be displayed on the display unit 20 in the vicinity of or over M15 to M15. Further, the display control unit 15 highlights the attention area (for example, highlights a frame or displays it with a thick line). That is, the area indicated by the mark M14 is the attention area, and the user has gazed at the area indicated by the mark M14 and then uttered the important word. In addition, the display control unit 15 may display the trajectory K1 of the line of sight of the user and the order of the degree of gaze on the display unit 20 by numbers.
  • step S308 the similar area extracting unit 15b extracts a similar area similar to the attention area in the observed image (step S308).
  • the display control unit 15 outputs an image in which the similar region extracted by the similar region extraction unit 15b on the observed image P21 is highlighted to the external display unit 20 (step S309). After step S309, the information processing device 10 ends this process.
  • the attention area setting unit 15a extracts the similar area according to the important word, so that the important area can be more surely extracted. As a result, the effect of preventing overlooking of important areas is further enhanced.
  • each of the line-of-sight data and the sound data is input from the outside, but in the fourth embodiment, the line-of-sight data and the sound data are generated.
  • the configuration of the information processing apparatus according to the fourth embodiment will be described, and then the processing executed by the information processing apparatus according to the fourth embodiment will be described.
  • the same components as those of the information processing system 1 according to the first embodiment described above are designated by the same reference numerals, and detailed description thereof will be appropriately omitted.
  • FIG. 15 is a schematic diagram showing the configuration of the information processing apparatus according to the fourth embodiment.
  • FIG. 16 is a schematic diagram showing the configuration of the information processing apparatus according to the fourth embodiment.
  • FIG. 17 is a block diagram showing the functional configuration of the information processing apparatus according to the fourth embodiment.
  • the information processing apparatus 1c shown in FIGS. 15 to 17 includes an analysis unit 11, a display unit 20, a line-of-sight detection unit 30, a voice input unit 31, a control unit 32, a time measuring unit 33, and a recording unit 34.
  • the line-of-sight detection unit 30 is configured by using an LED light source that irradiates near-infrared rays and an optical sensor (for example, CMOS, CCD, etc.) that images a pupil point and a reflection point on the cornea.
  • the line-of-sight detection unit 30 is provided on the side surface of the housing of the information processing device 1c where the user U1 can visually recognize the display unit 20 (see FIGS. 15 and 16). Under the control of the control unit 32, the line-of-sight detection unit 30 generates line-of-sight data that detects the line of sight of the user U1 with respect to the image displayed by the display unit 20, and outputs this line-of-sight data to the control unit 32.
  • the line-of-sight detection unit 30 irradiates the cornea of the user U1 with near infrared rays from an LED light source or the like, and the optical sensor reflects the pupil point on the cornea of the user U1.
  • the line-of-sight data is generated by imaging the points.
  • the line-of-sight detection unit 30 under the control of the control unit 32, based on the analysis result obtained by analyzing the data generated by the optical sensor by image processing or the like, the pattern of the pupil points and the reflection points of the user U1.
  • the visual line data of a predetermined time is generated by continuously calculating the visual line of the user from this, and this visual line data is output to the visual line detection control unit 321 described later.
  • the line-of-sight detection unit 30 may generate the line-of-sight data in which the line-of-sight of the user U1 is detected by detecting the pupil of the user U1 simply by using an optical sensor and detecting the pupil by using known pattern matching.
  • the line-of-sight data may be generated by detecting the line-of-sight of the user U1 using another sensor or another known technique.
  • the voice input unit 31 includes a microphone into which voice is input, and a voice codec that converts the voice received by the microphone into digital voice data and outputs the voice data to the control unit 32 by amplifying the voice data. Composed using. Under the control of the control unit 32, the voice input unit 31 receives the voice input of the user U1 to generate voice data, and outputs this voice data to the control unit 32. In addition to the voice input, the voice input unit 31 may be provided with a speaker or the like capable of outputting voice, and may be provided with a voice output function.
  • the control unit 32 is configured by using a CPU, FPGA, GPU, and the like, and controls the line-of-sight detection unit 30, the voice input unit 31, and the display unit 20.
  • the control unit 32 includes a line-of-sight detection control unit 321, a voice input control unit 322, and a display control unit 323.
  • the line-of-sight detection control unit 321 controls the line-of-sight detection unit 30. Specifically, the line-of-sight detection control unit 321 causes the line-of-sight detection unit 30 to irradiate the user U1 with near-infrared rays at predetermined timings, and causes the line-of-sight detection unit 30 to image the eyes of the user U1. Is generated. Further, the line-of-sight detection control unit 321 performs various image processing on the line-of-sight data input from the line-of-sight detection unit 30 and outputs the data to the recording unit 34.
  • the voice input control unit 322 controls the voice input unit 31, performs various processes on the voice data input from the voice input unit 31, such as gain up and noise reduction, and outputs the data to the recording unit 34.
  • the display control unit 323 controls the display mode of the display unit 20.
  • the display control unit 323 includes an attention area setting unit 323a and a similar area extraction unit 323b.
  • the attention area setting unit 323a sets the attention area in the observation image according to the degree of gaze analyzed by the analysis unit 11 and the importance input from the setting unit 38.
  • the similar area extracting unit 323b extracts a similar area similar to the attention area in the observed image.
  • the display control unit 323 causes the display unit 20 to display an image corresponding to the image data recorded in the recording unit 34 or a visual line mapping image corresponding to the visual line mapping data generated by the generation unit 39.
  • the time measuring unit 33 is configured by using a timer, a clock generator, etc., and adds time information to the line-of-sight data generated by the line-of-sight detection unit 30 and the voice data generated by the voice input unit 31.
  • the recording unit 34 is configured by using a volatile memory, a non-volatile memory, a recording medium, and the like, and records various information regarding the information processing device 1c.
  • the recording unit 34 has a line-of-sight data recording unit 341, an audio data recording unit 342, an image data recording unit 343, and a program recording unit 344.
  • the visual line data recording unit 341 records the visual line data input from the visual line detection control unit 321 and outputs the visual line data to the analysis unit 11.
  • the voice data recording unit 342 records the voice data input from the voice input control unit 322 and outputs the voice data to the conversion unit 35.
  • the image data recording unit 343 records a plurality of image data.
  • the plurality of pieces of image data are data input from the outside of the information processing apparatus 1c or data captured by an external image capturing apparatus using a recording medium.
  • the program recording unit 344 records various programs executed by the information processing apparatus 1c, data used during execution of various programs (for example, dictionary information in which keywords are registered and text conversion dictionary information), and processing data during execution of various programs. To do.
  • the conversion unit 35 converts the voice data into character information (text data) by performing well-known text conversion processing on the voice data, and outputs this character information to the extraction unit 36. It is also possible to configure such that the character conversion of voice is not performed at this point. In that case, the importance may be set as it is as the voice information and then the voice information may be converted into the character information.
  • the extraction unit 36 extracts a character or a word (keyword) corresponding to an instruction signal input from the operation unit 37 described below from the character information converted by the conversion unit 35, and outputs the extraction result to the setting unit 38. ..
  • the extraction unit 36 outputs the character information that has been input from the conversion unit 35 to the setting unit 38.
  • the operation unit 37 is configured by using a mouse, a keyboard, a touch panel, various switches, and the like, receives an operation input of the user U1, and outputs the content of the received operation to the control unit 32.
  • the setting unit 38 based on the gaze degree analyzed by the analysis unit 11 and the character information extracted by the extraction unit 36 at predetermined time intervals, assigns importance to voice data associated with the same time axis as the line-of-sight data. And the character information converted by the conversion unit 35 is allocated and recorded in the recording unit 34.
  • the generation unit 39 generates the line-of-sight mapping data in which the gaze degree analyzed by the analysis unit 11 and the character information converted by the conversion unit 35 are associated with each other on the image corresponding to the image data displayed by the display unit 20, and the line-of-sight mapping data is generated. Is output to the image data recording unit 343 or the display control unit 323.
  • FIG. 18 is a flowchart showing an outline of processing executed by the information processing apparatus according to the fourth embodiment.
  • the display control unit 323 causes the display unit 20 to display an image corresponding to the image data recorded by the image data recording unit 343 (step S401).
  • the display control unit 323 causes the display unit 20 to display an image corresponding to the image data selected according to the operation of the operation unit 37.
  • control unit 32 associates each of the line-of-sight data generated by the line-of-sight detection unit 30 and the voice data generated by the voice input unit 31 with the time measured by the time measuring unit 33, and the line-of-sight data recording unit 341 and The audio data is recorded in the audio data recording unit 342 (step S402).
  • the conversion unit 35 converts the voice data recorded by the voice data recording unit 342 into character information (step S403). Note that this step may be performed after S406 described below.
  • step S404: Yes when the instruction signal for ending the observation of the image displayed on the display unit 20 is input from the operation unit 37 (step S404: Yes), the information processing device 1c proceeds to step S405 described below. On the other hand, when the instruction signal for ending the observation of the image displayed on the display unit 20 is not input from the operation unit 37 (step S404: No), the information processing device 1c returns to step S402.
  • Step S405 corresponds to step S102 of FIG. 2 described above. After step S405, the information processing device 1c proceeds to step S406 described below.
  • step S406 the setting unit 38, based on the gaze degree analyzed by the analysis unit 11 and the character information extracted by the extraction unit 36 at predetermined time intervals, associates the voice with the same time axis as the line-of-sight data.
  • the importance and the character information converted by the conversion unit 35 are assigned to the data and recorded in the recording unit 34.
  • the setting unit 38 weights the importance of the voice data corresponding to the character information extracted by the extraction unit 36 and records the weighted sound data in the recording unit 34.
  • the setting unit 38 assigns the importance level to the voice data as a value obtained by multiplying the attention level by a coefficient based on the character information extracted by the extraction unit 36, and records the result in the recording unit 34.
  • the attention area setting unit 323a sets the attention area in the observation image according to the degree of gaze analyzed by the analysis unit 11 and the importance set by the setting unit 38 (step S407).
  • the generation unit 39 sets the gaze degree analyzed by the analysis unit 11, the character information converted by the conversion unit 35, and the attention area setting unit 323a on the image corresponding to the image data displayed by the display unit 20.
  • the line-of-sight mapping data associated with the attention area is generated (step S408).
  • the display control unit 323 causes the display unit 20 to display the line-of-sight mapping image corresponding to the line-of-sight mapping data generated by the generation unit 39 (step S409).
  • FIG. 19 is a diagram showing an example of the line-of-sight mapping image displayed on the display unit.
  • the display control unit 323 causes the display unit 20 to display the line-of-sight mapping image P41 corresponding to the line-of-sight mapping data generated by the generation unit 39.
  • the marks M11 to M15 and the locus K1 of the line of sight corresponding to the gaze region of the line of sight are superimposed on the line-of-sight mapping image P41, and the character information of the voice data emitted at the timing of this gaze degree and the attention region setting unit 323a.
  • the attention area set by is associated.
  • the numbers indicate the order of the line of sight of the user U1
  • the size (area) indicates the size of the gaze degree.
  • the user U1 operates the operation unit 37 to move the cursor A1 to a desired position, for example, the mark M14
  • the character information Q1 associated with the mark M14 for example, “here is cancer” is displayed. To be done.
  • the attention area indicated by the mark M14 is highlighted (for example, the frame is highlighted or displayed with a thick line).
  • the display control unit 323 displays the character information on the display unit 20, but the sound data may be output by converting the character information into sound, for example.
  • the user U1 can intuitively understand the important voice content and the area that is being watched.
  • the trajectory of the line of sight of the user U1 during observation can be intuitively grasped.
  • FIG. 20 is a diagram showing another example of the line-of-sight mapping image displayed on the display unit.
  • the display control unit 323 causes the display unit 20 to display the line-of-sight mapping image P42 corresponding to the line-of-sight mapping data generated by the generation unit 39. Further, the display control unit 323 causes the display unit 20 to display the icons B1 to B5 in which the character information and the time when the character information is uttered are associated with each other. Further, the display control unit 323 highlights the mark M14, which is the attention area, on the display unit 20, and highlights the character information corresponding to the time of the mark M14, for example, the icon B4 on the display unit 20 (for example, the frame is highlighted. Light display or thick line). As a result, the user U1 can intuitively understand the important voice content and the gazed area, and also can intuitively understand the content when uttered.
  • step S410 the similar area extraction unit 323b extracts a similar area similar to the attention area in the observed image. Specifically, the similar area extracting unit 323b extracts, in the image P41 or the image P42, an area similar to the attention area as a similar area.
  • the display control unit 323 outputs an image in which the similar region extracted by the similar region extraction unit 323b on the image P41 or the image P42 is highlighted to the external display unit 20 (step S411).
  • step S412 when any one of the marks corresponding to the plurality of gaze areas is operated by the operation unit 37 (step S412: Yes), the control unit 32 executes an operation process according to the operation (step S413). Specifically, the display control unit 323 causes the display unit 20 to highlight the attention area similar to the mark corresponding to the gaze area selected by the operation unit 37 (see, for example, FIG. 8 ). Further, the voice input control unit 322 causes the voice input unit 31 to reproduce the voice data associated with the area having a high degree of gaze. After step S413, the information processing device 1c proceeds to step S414 described below.
  • step S412 when any one of the marks corresponding to the plurality of gaze degree regions is not operated by the operation unit 37 (step S412: No), the information processing device 1c proceeds to step S414 described later.
  • step S414 when the instruction signal for instructing the end of the observation is input from the operation unit 37 (step S414: Yes), the information processing device 1c ends this processing. On the other hand, when the instruction signal for instructing the end of observation is not input from the operation unit 37 (step S414: No), the information processing apparatus 1c returns to step S409 described above.
  • the attention area setting unit 323a sets the attention area, which is the area the user is paying attention to, based on the gaze degree and utterance of the user's line of sight, and the similar area extraction unit By extracting a similar region that the 323b is similar to the region of interest, it is possible to extract a region similar to a lesion or the like that the user wants to search. As a result, it is possible to efficiently diagnose and prevent a lesion from being overlooked.
  • the display control unit 323 causes the display unit 20 to display the line-of-sight mapping image corresponding to the line-of-sight mapping data generated by the generation unit 39, which prevents the user from overlooking the image. It can be used for confirmation, confirmation of technical skills such as image interpretation of users, education for other users such as image interpretation and observation, and conferences.
  • FIG. 21 is a schematic diagram showing the configuration of the microscope system according to the fifth embodiment.
  • FIG. 22 is a block diagram showing the functional configuration of the microscope system according to the fifth embodiment.
  • the microscope system 100 includes an information processing device 1d, a display unit 20, a voice input unit 31, an operation unit 37, a microscope 200, an imaging unit 210, and a line-of-sight detection unit 220. And
  • the microscope 200 includes a main body section 201, a rotating section 202, an elevating section 203, a revolver 204, an objective lens 205, a magnification detecting section 206, a lens barrel section 207, a connecting section 208, and an eyepiece section 209. , Is provided.
  • the sample SP is placed on the main body 201.
  • the main body 201 has a substantially U shape, and the elevating part 203 is connected to the rotating part 202.
  • the rotating unit 202 rotates the elevating unit 203 in the vertical direction by rotating according to the operation of the user U2.
  • the elevating part 203 is provided so as to be vertically movable with respect to the main body part 201.
  • a revolver is connected to a surface on one end side of the elevating section 203, and a lens barrel section 207 is connected to a surface on the other end side.
  • a plurality of objective lenses 205 having different magnifications are connected to the revolver 204, and the revolver 204 is connected to the elevating part 203 so as to be rotatable about the optical axis L1.
  • the revolver 204 arranges a desired objective lens 205 on the optical axis L1 according to the operation of the user U2.
  • Information indicating the magnification such as an IC chip or a label, is attached to the plurality of objective lenses 205.
  • the objective lens 205 may be provided with a shape indicating magnification.
  • the magnification detection unit 206 detects the magnification of the objective lens 205 arranged on the optical axis L1 and outputs the detected detection result to the information processing device 1c.
  • the magnification detection unit 206 is configured using, for example, a unit that detects the position of the revolver 204 that switches the objective.
  • the lens barrel section 207 transmits a part of the subject image of the sample SP formed by the objective lens 205 to the connection section 208 and reflects it to the eyepiece section 209.
  • the lens barrel portion 207 has a prism, a half mirror, a collimating lens, and the like inside.
  • connection part 208 has one end connected to the lens barrel part 207 and the other end connected to the imaging part 210.
  • the connection unit 208 guides the subject image of the sample SP that has passed through the lens barrel unit 207 to the imaging unit 210.
  • the connection unit 208 is configured by using a plurality of collimating lenses, an imaging lens, and the like.
  • the eyepiece 209 guides and forms the subject image reflected by the lens barrel 207.
  • the eyepiece 209 is configured by using a plurality of collimating lenses, an imaging lens, and the like.
  • the imaging unit 210 receives the subject image of the sample SP formed by the connection unit 208 to generate image data, and outputs the image data to the information processing device 1d.
  • the image pickup unit 210 is configured by using an image sensor such as a CMOS or CCD and an image processing engine that performs various kinds of image processing on image data.
  • the line-of-sight detection unit 220 is provided inside or outside the eyepiece unit 209, generates line-of-sight data by detecting the line-of-sight of the user U2, and outputs this line-of-sight data to the information processing device 1d.
  • the line-of-sight detection unit 220 is provided inside the eyepiece unit 209, an LED light source that emits near-infrared rays, and an optical sensor that is provided inside the eyepiece unit 209 and images pupil points and reflection points on the cornea (for example, CMOS, CCD).
  • the line-of-sight detection unit 220 irradiates the cornea of the user U2 with near infrared rays from an LED light source or the like, and the optical sensor images a pupil point and a reflection point on the cornea of the user U2. To generate. Then, under the control of the information processing device 1d, the line-of-sight detection unit 222 detects the pupil point and the reflection point of the user U2 based on the analysis result obtained by analyzing the data generated by the optical sensor by image processing or the like. The line-of-sight data is generated by detecting the line-of-sight of the user from the pattern, and this line-of-sight data is output to the information processing device 1d.
  • the information processing device 1d includes a control unit 32c, a recording unit 34c, and a setting unit 38c instead of the control unit 32, the recording unit 34, and the setting unit 38 of the information processing device 1c according to the fourth embodiment described above.
  • the control unit 32c is configured using a CPU, an FPGA, a GPU, and the like, and controls the display unit 20, the voice input unit 31, the imaging unit 210, and the line-of-sight detection unit 220.
  • the control unit 32c further includes a shooting control unit 324 and a magnification calculation unit 325 in addition to the line-of-sight detection control unit 321, the voice input control unit 322, and the display control unit 323 of the control unit 32 of the fourth embodiment described above.
  • the image capturing control unit 324 controls the operation of the image capturing unit 210.
  • the imaging control unit 324 causes the imaging unit 210 to sequentially capture images at a predetermined frame rate to generate image data.
  • the image capturing control unit 324 performs image processing (for example, developing processing) on the image data input from the image capturing unit 210 and outputs the image data to the recording unit 34c.
  • the magnification calculation unit 325 calculates the current observation magnification of the microscope 200 based on the detection result input from the magnification detection unit 206, and outputs the calculation result to the setting unit 38c.
  • the magnification calculator 325 calculates the current observation magnification of the microscope 200 based on the magnification of the objective lens 205 and the magnification of the eyepiece 209 input from the magnification detector 206.
  • the recording unit 34c is configured by using a volatile memory, a non-volatile memory, a recording medium, and the like.
  • the recording unit 34c includes an image data recording unit 345 instead of the image data recording unit 343 according to the fourth embodiment described above.
  • the image data recording unit 345 records the image data input from the shooting control unit 324, and outputs this image data to the generation unit 39.
  • the setting unit 38c based on the gaze degree analyzed by the analysis unit 11 and the calculation result calculated by the magnification calculation unit 325 at predetermined time intervals, assigns importance to voice data associated with the same time axis as the line-of-sight data. And the character information converted by the conversion unit 35 is allocated and recorded in the recording unit 34c. Specifically, the setting unit 38c multiplies a value obtained by multiplying the gaze degree analyzed by the analysis unit 11 by a coefficient based on the calculation result calculated by the magnification calculation unit 325, for each frame of the audio data (for example, a numerical value). And is recorded in the recording unit 34c. That is, the setting unit 38c performs processing such that the greater the display magnification, the higher the importance.
  • the setting unit 38c is configured using a CPU, FPGA, GPU and the like.
  • FIG. 23 is a flowchart showing an outline of processing executed by the microscope system according to the fifth embodiment.
  • the control unit 32c sets each of the line-of-sight data generated by the line-of-sight detection unit 30, the voice data generated by the voice input unit 31, and the observation magnification calculated by the magnification calculation unit 325 to the time measurement unit.
  • the time measured by 33 is associated and recorded in the line-of-sight data recording unit 341 and the audio data recording unit 342 (step S501).
  • the microscope system 100 moves to step S502 described later.
  • Steps S502 to S504 correspond to steps S403 to S405 of FIG. 18 described above, respectively.
  • the microscope system 100 moves to step S505.
  • step S ⁇ b>505 the setting unit 38 c causes the voice associated with the same time axis as the line-of-sight data based on the gaze degree analyzed by the analysis unit 11 and the calculation result calculated by the magnification calculation unit 325 at predetermined time intervals. The importance and the character information converted by the conversion unit 35 are assigned to the data and recorded in the recording unit 34c.
  • step S505 the microscope system 100 moves to step S506.
  • Steps S506 to S513 correspond to steps S407 to S414 in FIG. 18 described above, respectively.
  • the attention area is set in consideration of the observation content and the gaze degree, and it is similar to the attention area. It is possible to efficiently observe the similar region and prevent a lesion or the like from being overlooked.
  • the observation magnification calculated by the magnification calculation unit 325 is recorded in the recording unit 14.
  • the operation history of the user U2 is recorded, and the operation history is further taken into consideration, so that the importance of the audio data is increased. Degrees may be assigned.
  • the sixth embodiment is configured by incorporating an information processing device in a part of the endoscope system.
  • the processing executed by the endoscope system according to the sixth embodiment will be described.
  • the same components as those of the information processing device 1c according to the fourth embodiment described above are designated by the same reference numerals, and detailed description thereof will be appropriately omitted.
  • FIG. 24 is a schematic diagram showing the configuration of the endoscope system according to the sixth embodiment.
  • FIG. 25 is a block diagram showing the functional configuration of the endoscope system according to the sixth embodiment.
  • the endoscope system 300 shown in FIGS. 24 and 25 includes a display unit 20, an endoscope 400, a wearable device 500, an input unit 600, and an information processing device 1e.
  • the endoscope 400 generates image data by capturing an image of the inside of the subject U4 when the user U3 such as a doctor or a surgeon inserts the subject U4 into the subject U4, and the image data is transmitted to the information processing device 1e. Output.
  • the endoscope 400 includes an imaging unit 401 and an operation unit 402.
  • the image pickup section 401 is provided at the tip of the insertion section of the endoscope 400. Under the control of the information processing device 1e, the imaging unit 401 generates image data by imaging the inside of the subject U4, and outputs this image data to the information processing device 1e.
  • the image pickup unit 401 is configured by using an optical system capable of changing the observation magnification and an image sensor such as a CMOS or CCD that generates image data by receiving a subject image formed by the optical system.
  • the operation unit 402 receives inputs of various operations of the user U3 and outputs operation signals corresponding to the received various operations to the information processing device 1e.
  • the wearable device 500 is attached to the user U3, detects the line of sight of the user U3, and receives the voice input of the user U3.
  • the wearable device 500 includes a line-of-sight detection unit 510 and a voice input unit 520.
  • the line-of-sight detection unit 510 is provided in the wearable device 500, generates line-of-sight data by detecting the degree of gaze of the line of sight of the user U3, and outputs this line-of-sight data to the information processing device 1e.
  • the line-of-sight detection unit 510 has the same configuration as the line-of-sight detection unit 220 according to the above-described fifth embodiment, and thus detailed configuration will be omitted.
  • the voice input unit 520 is provided in the wearable device 500, generates voice data by receiving the voice input of the user U3, and outputs the voice data to the information processing device 1e.
  • the voice input unit 520 is configured using a microphone or the like.
  • the configuration of the input unit 600 will be described.
  • the input unit 600 is configured using a mouse, a keyboard, a touch panel and various switches.
  • the input unit 600 receives inputs of various operations of the user U3, and outputs operation signals corresponding to the received various operations to the information processing device 1e.
  • the information processing device 1e is replaced with the control unit 32c, the recording unit 34c, the setting unit 38c, and the generating unit 39 of the information processing device 1d according to the fifth embodiment described above, instead of the control unit 32d, the recording unit 34d, the setting unit 38d, and The generator 39d is provided. Further, the information processing device 1d further includes an image processing unit 40.
  • the control unit 32d is configured using a CPU, FPGA, GPU, and the like, and controls the endoscope 400, the wearable device 500, and the display unit 20.
  • the control unit 32d includes an operation history detection unit 326 in addition to the line-of-sight detection control unit 321, the voice input control unit 322, the display control unit 323, and the shooting control unit 324.
  • the operation history detection unit 326 detects the content of the operation received by the operation unit 402 of the endoscope 400, and outputs the detection result to the recording unit 34d. Specifically, when the expansion switch is operated from the operation unit 402 of the endoscope 400, the operation history detection unit 326 detects the operation content and outputs the detection result to the recording unit 34d.
  • the operation history detection unit 326 may detect the operation content of the treatment tool inserted inside the subject U4 via the endoscope 400 and output the detection result to the recording unit 34d.
  • the recording unit 34d is configured using a volatile memory, a non-volatile memory, a recording medium, and the like.
  • the recording unit 34d further includes an operation history recording unit 346 in addition to the configuration of the recording unit 34c according to the fifth embodiment described above.
  • the operation history recording unit 346 records the operation history of the operation unit 402 of the endoscope 400 input from the operation history detection unit 326.
  • the setting unit 38d is important for the voice data associated with the same time axis as the line-of-sight data, based on the gaze degree analyzed by the analysis unit 11 and the operation history recorded by the operation history recording unit 346 at predetermined time intervals.
  • the character information converted by the conversion unit and the conversion unit 35 is allocated and recorded in the recording unit 34d.
  • the setting unit 38d allocates and records an importance level (for example, a numerical value) for each frame of audio data based on the gaze degree analyzed by the analysis unit 11 and the operation history recorded by the operation history recording unit 346. Record in section 34d. That is, the setting unit 38d performs processing such that the greater the coefficient set according to the content of the operation history, the higher the importance.
  • the setting unit 38d is configured using a CPU, FPGA, GPU, and the like.
  • the generation unit 39d generates, on the integrated image corresponding to the integrated image data generated by the image processing unit 40, the line-of-sight mapping data in which the gaze degree and the character information analyzed by the analysis unit 11 are associated, and the generated line-of-sight mapping data. Is output to the recording unit 34d and the display control unit 323.
  • the image processing unit 40 generates integrated image data of a three-dimensional image by synthesizing a plurality of image data recorded by the image data recording unit 345, and outputs this integrated image data to the generation unit 39d.
  • FIG. 26 is a flowchart showing an outline of processing executed by the endoscope system according to the sixth embodiment.
  • the control unit 32d first time-measures each of the line-of-sight data generated by the line-of-sight detection unit 510, the voice data generated by the voice input unit 520, and the operation history detected by the operation history detection unit 326. It is recorded in the line-of-sight data recording unit 341, the voice data recording unit 342, and the operation history recording unit 346 in association with the time measured by the unit 33 (step S601). After step S601, the endoscope system 300 moves to step S602 described below.
  • Steps S602 to S604 correspond to steps S403 to S405 of FIG. 18 described above, respectively.
  • the endoscope system 300 moves to step S605.
  • step S605 the setting unit 38d associates the same time axis with the line-of-sight data based on the gaze degree analyzed by the analysis unit 11 and the operation history recorded by the operation history recording unit 346 at predetermined time intervals.
  • the importance and the character information converted by the conversion unit 35 are assigned to the voice data and recorded in the recording unit 34d.
  • FIG. 27 is a diagram schematically showing an example of a plurality of images corresponding to a plurality of image data recorded by the image data recording unit 345.
  • FIG. 28 is a diagram showing an example of an integrated image corresponding to the integrated image data generated by the image processing unit.
  • the attention area setting unit 323a sets the attention area in the integrated image data according to the degree of gaze analyzed by the analysis unit 11 and the importance degree set by the setting unit 38d (step S607).
  • the generation unit 39d on the integrated image P100 corresponding to the integrated image data generated by the image processing unit 40, the line-of-sight mapping data in which the gaze degree, the line-of-sight, the character information, and the region of interest analyzed by the analysis unit 11 are associated. Is generated and the generated sight line mapping data is output to the recording unit 34d and the display control unit 323 (step S608).
  • the generation unit 39d in addition to the gaze degree, the line of sight K2, the character information, and the attention area analyzed by the analysis unit 11, on the integrated image P100 corresponding to the integrated image data generated by the image processing unit 40, the operation history. May be associated.
  • the endoscope system 300 moves to step S609 described below.
  • step S609 the display control unit 323 superimposes the line-of-sight mapping data in which the attention area is highlighted on the image corresponding to the image data, and outputs it to the external display unit 20. Specifically, the display control unit 323 highlights the attention area in each image of the image data P11 to P N and causes the display unit 20 to display the region of interest.
  • the similar area extraction unit 323b extracts a similar area similar to the attention area in the observed image (step S610). Specifically, the similar area extraction unit 323b extracts, in each image of the image data P11 to P N , an area having a feature amount similar to the attention area as a similar area.
  • the display control unit 323 outputs an image in which the similar region extracted by the similar region extraction unit 323b is highlighted on each image of the image data P11 to P N to the external display unit 20 (step S611).
  • FIG. 29 is a diagram schematically showing an example of an image displayed by the display unit according to the sixth embodiment.
  • the display control unit 323 causes the display unit 20 to display an image in which the attention area M31 and the similar areas M32 and M33 are highlighted in the image data P N , for example.
  • the display control unit 323 may cause the display unit 20 to display an image in which the attention area and the similar area are highlighted in the integrated image P100 illustrated in FIG.
  • FIG. 30 is a diagram showing a state in which similar regions are highlighted in FIG. As shown in FIG. 30, the display control unit 323 causes the display unit 20 to display an image in which the attention area M31 and the similar areas M32 to M34 are highlighted in the integrated image P100, for example.
  • Steps S612 to S614 correspond to steps S412 to S414 in FIG. 18 described above, respectively.
  • the attention area setting unit 323a sets the attention area, which is the area the user is paying attention to, based on the gaze degree and utterance of the user's line of sight, and the similar area extraction unit By extracting a similar region that is similar to the region of interest by 323b, it is possible to extract a region similar to the lesion or the like that the user wants to search in the observation using the endoscope system. As a result, it is possible to efficiently diagnose and prevent a lesion from being overlooked.
  • the similar areas are highlighted in the image data P11 to P N and the integrated image P100, but the similar areas are highlighted in either one of the image data P11 to P N or the integrated image P100P N. May be.
  • the endoscope system is used in the sixth embodiment, it is, for example, a capsule endoscope, a video microscope for imaging a subject, a mobile phone having an imaging function, and a tablet terminal having an imaging function. Can also be applied.
  • endoscope system including the flexible endoscope is described in the sixth embodiment, the endoscope system including the rigid endoscope and the endoscope including the industrial endoscope. Even a system can be applied.
  • the endoscope system including the endoscope to be inserted into the subject is used.
  • the endoscope system such as the sinus endoscope and the electric scalpel or the inspection probe may be used. Can be applied.
  • Various inventions can be formed by appropriately combining the plurality of constituent elements disclosed in the first to sixth embodiments. For example, some constituent elements may be deleted from all the constituent elements described in the first to sixth embodiments. Furthermore, the constituent elements described in the first to sixth embodiments may be combined as appropriate.
  • the above-mentioned “section” can be read as “means” or "circuit".
  • the control unit can be read as a control unit or a control circuit.
  • the program executed by the information processing apparatus is a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile) in the form of installable or executable file data. It is provided by being recorded in a computer-readable recording medium such as a disk), a USB medium, or a flash memory.
  • the program to be executed by the information processing apparatus according to the first to sixth embodiments may be stored in a computer connected to a network such as the Internet and may be provided by being downloaded via the network. Furthermore, the program executed by the information processing apparatus according to the first to sixth embodiments may be provided or distributed via a network such as the Internet.
  • signals are transmitted from various devices via a transmission cable, but it does not have to be wired, and may be wireless.
  • signals may be transmitted from each device according to a predetermined wireless communication standard (for example, Wi-Fi (registered trademark) or Bluetooth (registered trademark)).
  • Wi-Fi registered trademark
  • Bluetooth registered trademark
  • wireless communication may be performed according to another wireless communication standard.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Veterinary Medicine (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Optics & Photonics (AREA)
  • Data Mining & Analysis (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置は、利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析する解析部と、外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録する設定部と、前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する注目領域設定部と、を備える。画像内において利用者が検索したい領域をハンズフリーで精度よく判別することができる情報処理装置を提供する。

Description

情報処理装置、情報処理方法、及びプログラム
 本発明は、音声データと視線データとを処理する情報処理装置、情報処理方法、及びプログラムに関する。
 従来、1又は複数の画像内において利用者が所望する領域を検索する情報処理装置において、利用者の視線を検知し、利用者が注目した注目領域を画像検索に用いる技術が知られている(例えば、特許文献1参照。)。この技術によれば、利用者は、視線により注目領域を情報処理装置に入力することができるため、ハンズフリーの状態で注目領域の入力を行うことができる。
米国特許第7593602号明細書
 しかしながら、利用者が画像を観察しながら検索対象とする領域を探している場合、必ずしも利用者が注目した領域と利用者が検索したい領域とが一致しない場合がある。
 本発明は、上記に鑑みてなされたものであって、画像内において利用者が検索したい領域をハンズフリーで精度よく判別することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明の一態様に係る情報処理装置は、利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析する解析部と、外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録する設定部と、前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する注目領域設定部と、を備える。
 また、本発明の一態様に係る情報処理装置は、前記設定部は、前記注視度と、前記音声データに含まれる重要単語とに応じて前記重要度を割り当てる。
 また、本発明の一態様に係る情報処理装置は、前記観察画像において前記注目領域に類似した領域を抽出する類似領域抽出部をさらに備える。
 また、本発明の一態様に係る情報処理装置は、データベースに格納された画像群において前記注目領域に類似した領域を抽出する類似領域抽出部をさらに備える。
 また、本発明の一態様に係る情報処理装置は、前記利用者の視線を連続的に検出することによって前記視線データを生成する視線検出部と、前記利用者の音声の入力を受け付けて前記音声データを生成する音声入力部と、をさらに備える。
 また、本発明の一態様に係る情報処理装置は、標本を観察する観察倍率を変更可能であり、前記利用者が前記標本の観察像を観察可能な接眼部を有する顕微鏡と、前記顕微鏡に接続され、前記顕微鏡が結像した前記標本の観察像を撮像することによって画像データを生成する撮像部と、をさらに備え、前記視線検出部は、前記顕微鏡の接眼部に設けられ、前記注目領域設定部は、前記観察倍率に応じて前記注目領域を設定する。
 また、本発明の一態様に係る情報処理装置は、被検体に挿入可能な挿入部の先端部に設けられ、被検体内の体内を撮像することによって画像データを生成する撮像部と、視野を変更するための各種の操作の入力を受け付ける操作部と、を有する内視鏡をさらに備える。
 また、本発明の一態様に係る情報処理方法は、情報処理装置が実行する情報処理方法であって、利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析し、外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録し、前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する。
 また、本発明の一態様に係るプログラムは、情報処理装置が、利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析し、外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録し、前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する。
 本発明によれば、画像内において利用者が検索したい領域をハンズフリーで精度よく判別することができる情報処理装置、情報処理方法、及びプログラムを実現することができる。
図1は、実施の形態1に係る情報処理システムの機能構成を示すブロック図である。 図2は、実施の形態1に係る情報処理装置が実行する処理の概要を示すフローチャートである。 図3は、実施の形態1に係る設定部による音声データへの重要度の割り当ての設定方法を模式的に説明する図である。 図4は、実施の形態1に係る表示部が表示する画像の一例を模式的に示す図である。 図5は、実施の形態1に係る表示部が表示する画像の別の一例を模式的に示す図である。 図6は、図5を画像解析により領域に分割した様子を表す図である。 図7は、図5の部分拡大図である。 図8は、図5において類似領域を強調表示した様子を表す図である。 図9は、実施の形態2に係る情報処理システムの機能構成を示すブロック図である。 図10は、実施の形態2に係る情報処理装置が実行する処理の概要を示すフローチャートである。 図11は、実施の形態3に係る情報処理システムの機能構成を示すブロック図である。 図12は、実施の形態3に係る情報処理装置が実行する処理の概要を示すフローチャートである。 図13は、実施の形態3に係る解析部が視線データに重要度を設定する設定方法を模式的に説明する図である。 図14は、実施の形態3に係る表示部が表示する画像の一例を模式的に示す図である。 図15は、実施の形態4に係る情報処理装置の構成を示す概略図である。 図16は、実施の形態4に係る情報処理装置の構成を示す概略図である。 図17は、実施の形態4に係る情報処理装置の機能構成を示すブロック図である。 図18は、実施の形態4に係る情報処理装置が実行する処理の概要を示すフローチャートである。 図19は、表示部が表示する視線マッピング画像の一例を示す図である。 図20は、表示部が表示する視線マッピング画像の別の一例を示す図である。 図21は、実施の形態5に係る顕微鏡システムの構成を示す概略図である。 図22は、実施の形態5に係る顕微鏡システムの機能構成を示すブロック図である。 図23は、実施の形態5に係る顕微鏡システムが実行する処理の概要を示すフローチャートである。 図24は、実施の形態6に係る内視鏡システムの構成を示す概略図である。 図25は、実施の形態6に係る内視鏡システムの機能構成を示すブロック図である。 図26は、実施の形態6に係る内視鏡システムが実行する処理の概要を示すフローチャートである。 図27は、画像データ記録部が記録する複数の画像データに対応する複数の画像の一例を模式的に示す図である。 図28は、画像処理部が生成する統合画像データに対応する統合画像の一例を示す図である。 図29は、実施の形態6に係る表示部が表示する画像の一例を模式的に示す図である。 図30は、図28において類似領域を強調表示した様子を表す図である。
 以下に、図面を参照して本発明に係る情報処理装置、情報処理方法、及びプログラムの実施の形態を説明する。なお、これらの実施の形態により本発明が限定されるものではない。本発明は、視線データ及び音声データを用いて画像検索を行う情報処理装置、情報処理方法、及びプログラム一般に適用することができる。
 また、図面の記載において、同一又は対応する要素には適宜同一の符号を付している。また、図面は模式的なものであり、各要素の寸法の関係、各要素の比率などは、現実と異なる場合があることに留意する必要がある。図面の相互間においても、互いの寸法の関係や比率が異なる部分が含まれている場合がある。
(実施の形態1)
 〔情報処理システムの構成〕
 図1は、実施の形態1に係る情報処理システムの機能構成を示すブロック図である。図1に示す情報処理システム1は、外部から入力される視線データ、音声データ及び画像データに対して各種の処理を行う情報処理装置10と、情報処理装置10から出力された各種データを表示する表示部20と、を備える。なお、情報処理装置10と表示部20は、無線又は有線によって双方向に接続されている。
 〔情報処理装置の構成〕
 まず、情報処理装置10の構成について説明する。
 図1に示す情報処理装置10は、例えばサーバやパーソナルコンピュータ等にインストールされたプログラムを用いて実現され、ネットワークを経由して各種データが入力される、又は外部の装置で取得された各種データが入力される。図1に示すように、情報処理装置10は、解析部11と、設定部12と、生成部13と、記録部14と、表示制御部15と、を備える。
 解析部11は、利用者の視線を検出して外部から入力される所定時間の視線データに基づいて、観察画像に対する利用者の視線の注視度を解析する。ここで、視線データとは、角膜反射法に基づくものである。具体的には、視線データは、図示しない視線検出部(アイトラッキング)に設けられたLED光源等から近赤外線が利用者の角膜に照射された際に、視線検出部である光学センサが角膜上の瞳孔点と反射点を撮像することによって生成されたデータである。そして、視線データは、光学センサが角膜上の瞳孔点と反射点を撮像することによって生成されたデータに対して画像処理等を行うことによって解析した解析結果に基づく利用者の瞳孔点と反射点のパターンから利用者の視線を算出したものである。
 また、図示していないが、視線検出部を備える装置が視線データを計測する際には、対応する画像データ(観察画像)を使用者(利用者)に提示したうえで、視線データを計測している。この場合、図示しない視線検出部を備える装置は、使用者に表示している画像が固定している場合、すなわち表示領域の時間とともに絶対座標が変化しないとき、視線に計測領域と画像の絶対座標の相対的に位置関係を固定値として与えていれば良い。ここで、絶対座標とは、画像の所定の1点を基準に表記している座標を指している。
 利用形態が内視鏡システムや光学顕微鏡の場合、視線を検出するために提示している視野が画像データの視野となるため、画像の絶対座標にたいする観察視野の相対的な位置関係は変わらない。また、利用形態が内視鏡システムや光学顕微鏡においては、動画として記録している場合、視野のマッピングデータを生成するために、視線検出データと、視線の検出と同時に記録された画像又は提示された画像を用いる。
 一方で、利用形態がWSI(Whole Slide Imaging)では、顕微鏡のスライドサンプルの一部を視野として使用者が観察しており、時刻とともに観察視野が変化する。この場合、全体の画像データのどの部分が視野として提示されているか、すなわち全体の画像データに対する表示領域の絶対座標の切り替えの時間情報も、視線・音声の情報と同じく同期化して記録する。
 解析部11は、利用者の視線を検出して外部から入力される所定時間の視線データに基づいて、視線の移動速度、一定の時間内における視線の移動距離、一定領域内における視線の滞留時間のいずれか1つを検出することによって、視線(注視点)の注視度を解析する。なお、図示しない視線検出部は、所定の場所に載置されることによって利用者を撮像することによって視線を検出するものであってもよいし、利用者が装着することによって利用者を撮像することによって視線を検出するものであってもよい。また、視線データは、これ以外にも、周知のパターンマッチングによって生成されたものであってもよい。解析部11は、例えばCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)及びGPU(Graphics Processing Unit)等を用いて構成される。
 設定部12は、外部から入力される利用者の音声を表す音声データであって、視線データと同じ時間軸が対応付けられた音声データに対して、所定の時間間隔毎に注視度に応じた重要度を音声データに割り当てて、音声データ及び重要度を記録部14へ記録する。具体的には、設定部12は、音声データのフレーム毎に、このフレームの同じタイミングで解析部11が解析した注視度に応じた重要度(例えば数値)を割り当てて、音声データと重要度とを関連づけて記録部14へ記録する。設定部12は、注視度が高くなった直後の音声データに対して、重要度を高く割り当てる。また、外部から入力される利用者の音声を表す音声データは、視線データと同じタイミングで図示しないマイク等の音声入力部によって生成されたものである。設定部12は、CPU、FPGA及びGPU等を用いて構成される。
 生成部13は、外部から入力される画像データに対応する画像上に解析部11が解析した注視度を関連付けた視線マッピングデータを生成し、この生成した視線マッピングデータを記録部14及び注目領域設定部15aへ出力する。具体的には、生成部13は、外部から入力される画像データに対応する画像上の所定領域毎に、解析部11が解析した注視度を画像上の座標情報に関連付けた視線マッピングデータを生成する。さらに、生成部13は、注視度に加えて、外部から入力される画像データに対応する画像上に解析部11が解析した利用者の視線の軌跡を関連付けて視線マッピングデータを生成する。生成部13は、CPU、FPGA及びGPU等を用いて構成される。上述のWSIで使用する場合は、生成部13は、上述の様に視線マッピングデータを画像の絶対座標として得るとき、視線を計測した際の表示と画像の絶対座標の相対的位置関係を使用する。また、上述の様に、生成部13は、観察視野が時々刻々と変化する場合には、表示領域=視野の絶対座標(例えば表示画像の左上が元の画像データに絶対座標でどこに位置するか)の経時変化を入力する。
 記録部14は、設定部12から入力された音声データと、所定の時間間隔毎に割り当たれた重要度と、解析部11が解析した注視度と、を対応付けて記録する。また、記録部14は、生成部13から入力された視線マッピングデータを記録する。また、記録部14は、情報処理装置10が実行する各種プログラム及び処理中のデータを記録する。記録部14は、揮発性メモリ、不揮発性メモリ及び記録媒体等を用いて構成される。
 表示制御部15は、注目領域設定部15aと、類似領域抽出部15bと、を有する。表示制御部15は、CPU、FPGA及びGPU等を用いて構成される。なお、上述した解析部11、設定部12、生成部13、及び表示制御部15をCPU、FPGA及びGPUのいずれか1つを用いて各機能が発揮できるように構成してもよいし、もちろん、CPU、FPGA及びGPUを組み合わせて各機能が発揮できるように構成してもよい。
 注目領域設定部15aは、解析部11が解析した注視度及び設定部12から入力された重要度に応じて観察画像に注目領域を設定する。具体的には、注目領域設定部15aは、注視度及び重要度が閾値以上である領域を注目領域に設定する。
 類似領域抽出部15bは、観察画像において注目領域に類似した類似領域を抽出する。具体的には、類似領域抽出部15bは、注目領域の色味や形状等の組織性状に基づいた特徴量を算出し、観察画像全体から注目領域の特徴量との差が所定の閾値以内である領域を類似領域として抽出する。また、類似領域抽出部15bは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)等を用いた機械学習によって、観察画像から注目領域に類似している領域を類似領域として抽出してもよい。
 表示制御部15は、外部から入力される画像データに対応する画像上に、生成部13が生成した視線マッピングデータを重畳した視線マッピング画像を外部の表示部20に出力することによって表示させる。また、表示制御部15は、視線マッピング画像において注目領域や類似領域を強調表示した画像を表示部20に表示させる。
 〔表示部の構成〕
 次に、表示部20の構成について説明する。
 表示部20は、表示制御部15から入力された画像データに対応する画像や視線マッピングデータに対応する視線マッピング情報を表示する。表示部20は、例えば有機EL(Electro Luminescence)や液晶等の表示モニタを用いて構成される。
 〔情報処理装置の処理〕
 次に、情報処理装置10の処理について説明する。図2は、情報処理装置10が実行する処理について説明する。
 図2に示すように、まず、情報処理装置10は、外部から入力される視線データ、音声データ及び画像データを取得する(ステップS101)。
 続いて、解析部11は、視線データに基づいて、観察画像に対する利用者の視線の注視度を解析する(ステップS102)。一般には、視線の移動速度が大きいほど、利用者の注視度が低く、視線の移動速度が小さいほど、利用者の視線の注視度が高いと解析することができる。即ち、解析部11は、利用者の視線の移動速度が大きいほど、利用者の視線の注視度が低いと解析し、視線の移動速度が小さいほど、利用者の視線の注視度が高いと解析する。このように、解析部11は、所定時間毎(利用者が画像の観察や読影を行っている時間)の視線データに対して、利用者の視線の注視度を解析する。なお、解析部11の解析方法は、これに限定されることなく、一定の時間内における利用者の視線の移動距離及び一定領域内における利用者の視線の滞留時間のいずれか1つを検出することによって、視線の注視度を解析してもよい。
 その後、設定部12は、視線データと同期化された音声データに対して、所定の時間間隔毎に解析部11が解析した注視度に応じた重要度を音声データに割り当てる設定を行って記録部14に記録する(ステップS103)。ステップS103の後、情報処理装置10は、後述するステップS104へ移行する。
 図3は、実施の形態1に係る設定部による音声データへの重要度の割り当ての設定方法を模式的に説明する図である。図3において、横軸が時間を示し、図3の(a)の縦軸が注視度を示し、図3の(b)の縦軸が音声データ(発音の程度;発音があるときに大きくなる)を示し、図3の(c)の縦軸が重要度を示す。また、図3の(a)の曲線L1が注視度の時間変化を示し、図3の(b)の曲線L2が音声データの時間変化を示し、図3の(c)の曲線L3が重要度の時間変化を示す。
 図3の曲線L1,曲線L2,曲線L3に示すように、利用者の注視度が高いとき(区間D1)に、音声データに変化がある(発音している様子が見られる)と、利用者が重要なことを発音している可能性が高いため、重要度が高いと推定することができる。
 即ち、設定部12は、音声データに対して、所定の時間間隔毎に解析部11が解析した注視度に応じた重要度を音声データに割り当てる設定を行って記録部14に記録する。具体的には、図3に示す場合、設定部12は、解析部11が注視度を高いと解析した区間D1の音声データに対して重要度(例えば数字、視線が滞在していた時間及び大中小を示す記号等)を高いと割り当てる設定を行って記録部14に記録する。このとき、設定部12は、解析部11が注視度を高いと解析した区間D1と、音声データの発音区間D2にずれの期間d1が生じている場合、解析部11が注視度を高いと解析した区間D1に対応する音声データの直後である発音区間D2(例えば1秒後の区間)に重要度が高い割り当てを設定して記録部14に記録する。
 なお、実施の形態1では、予め利用者の注視度と発音(発声)との時間差を算出し(キャリブレーションデータ)、この算出結果に基づいて利用者の注視度と発音(発声)とのずれを補正するキャリブレーション処理を行ってもよい。
 また、図3においては、視線データの注視度と音声データの時間的なずれに着目して、区間D1と区間D2に遅延時間を設けるようにしているが、図3の変形例として、設定部12は、視線データの注視度が高い区間の前後にマージンを設けることによって、音声データの重要度が高い期間としても良い。すなわち、設定部12は、区間D2の開始時間が区間D1の開始時間よりも先になっており、区間D2の終了時間が区間D1の終了時間よりも遅くするという様態としてもよい。
 図2に戻り、ステップS104以降の説明を続ける。
 ステップS104において、注目領域設定部15aは、解析部11が解析した注視度及び設定部12から入力された重要度に応じて観察画像に注目領域を設定する。
 その後、生成部13は、画像データに対応する画像上に解析部11が解析した注視度を関連付けた視線マッピングデータを生成する(ステップS105)。
 続いて、表示制御部15は、画像データに対応する画像上に、注目領域を強調表示した視線マッピングデータを重畳して外部の表示部20に出力する(ステップS106)。
 図4は、実施の形態1に係る表示部が表示する画像の一例を模式的に示す図である。図4に示すように、表示制御部15は、画像データに対応する画像上に、注目領域を強調表示した視線マッピングデータに重畳した視線マッピング画像P1を表示部20に表示させる。図4においては、視線の注視度が高いほど、円の領域が大きい注視度のマークM11~M15が重畳された視線マッピング画像P1を表示部20に表示させる。さらに、表示制御部15は、各注視度の期間(時間)で利用者が発した音声データを、周知の文字変換技術を用いて変換した文字情報として、マークM11~M15の近傍又は重畳して表示部20に表示させることにより、注目領域を強調表示させる(例えば枠をハイライト表示又は太線で表示)。すなわち、マークM14が表す領域が注目領域であり、利用者がマークM14の示す領域を注視した後、文字情報Q1に示す「ここです。」という音声を発声したことを表す。また、表示制御部15は、利用者の視線の軌跡K1及び注視度の順番を数字で表示部20に表示させてもよい。
 図5は、実施の形態1に係る表示部が表示する画像の別の一例を模式的に示す図である。利用者は、観察画像P21の全域を観察し、病変等があるか否かの病理診断を行う。
 図6は、図5を画像解析により領域に分割した様子を表す図である。図6に示す画像P22のように、図5は、色味や形状等の組織性状に基づいた特徴量に応じて、類似する特徴量を有する領域に分割されている。
 図7は、図5の部分拡大図である。図7は、図5の領域Aに対応する。利用者は、観察画像P21を拡大しながら観察を行い、図7に示す画像P23において領域M21が注目領域に設定された。
 図2に戻り、ステップS107以降の説明を続ける。
 ステップS107において、類似領域抽出部15bは、観察画像において注目領域に類似した類似領域を抽出する。具体的には、類似領域抽出部15bは、画像P22において、注目領域M21に類似した特徴量を有する領域を類似領域として抽出する。
 その後、表示制御部15は、観察画像P21上において類似領域抽出部15bが抽出した類似領域を強調表示した画像を外部の表示部20に出力する(ステップS108)。ステップS108の後、情報処理装置10は、本処理を終了する。
 図8は、図5において類似領域を強調表示した様子を表す図である。図8に示すように、観察画像P21上において類似領域抽出部15bが抽出した類似領域M22~M26を強調表示した(例えば類似領域を円で囲む)画像P24を表示部20に表示させる。
 以上説明した実施の形態1によれば、注目領域設定部15aが利用者の視線の注視度及び発声に基づいて、利用者が注目している領域である注目領域を設定し、類似領域抽出部15bが注目領域に類似した類似領域を抽出することにより、利用者が検索したい病変等に似た領域を抽出することができる。その結果、効率よく診断を行うことができるとともに、病変の見落しを防止することができる。
 また、実施の形態1では、記録部14が設定部12によって重要度を割り当てた音声データを記録するので、ディープラーニング等の機械学習で用いる視線のマッピングに基づく画像データと音声との対応関係を学習する際の学習データを容易に取得することができる。
(実施の形態2)
 次に、本開示の実施の形態2について説明する。上述した実施の形態1では、類似領域抽出部15bが観察画像において類似領域を抽出したが、実施の形態2では、類似領域抽出部15bがデータベースに格納された画像群において類似領域を抽出する。以下においては、実施の形態2に係る情報処理システムの構成を説明後、実施の形態2に係る情報処理装置が実行する処理について説明する。なお、上述した実施の形態1に係る情報処理システムと同一の構成には同一の符号を付して詳細な説明は、省略する。
 〔情報処理システムの構成〕
 図9は、実施の形態2に係る情報処理システムの機能構成を示すブロック図である。図9に示す情報処理システム1aは、上述した実施の形態1に係る情報処理装置10に換えて、情報処理装置10aを備える。情報処理装置10aは、上述した実施の形態1に係る類似領域抽出部15bに換えて、類似領域抽出部15baを備える。類似領域抽出部15baは、記録装置21に接続されている。
 記録装置21は、例えばインターネット回線を介在して接続されたサーバである。記録装置21には、複数の画像からなる画像群が格納されたデータベースが構築されている。
 類似領域抽出部15baは、記録装置21のデータベースに格納された画像群において注目領域に類似した領域を抽出する。
 〔情報処理装置の処理〕
 次に、情報処理装置10aが実行する処理について説明する。図10は、実施の形態2に係る情報処理装置が実行する処理の概要を示すフローチャートである。図10において、ステップS201~ステップS206は、上述した図2のステップS101~ステップS106それぞれに対応する。利用者は、記録装置21に記録されたいずれか1つ又は複数の画像を観察し、このときの利用者の視線及び発声に基づいて注目領域設定部15aが注目領域を設定する。
 ステップS207において、類似領域抽出部15baは、記録装置21のデータベースに格納された画像群において注目領域に類似した領域を抽出する。
 続いて、表示制御部15は、類似領域抽出部15baが抽出した類似領域を強調表示した画像を外部の表示部20に出力する(ステップS208)。具体的には、表示制御部15は、類似領域を含む各画像において、類似領域を強調表示して一覧表示する。
 以上説明した実施の形態2によれば、予め撮像された複数の画像から病変等を探す場合に、注視した病変部と類似する領域を含む画像が自動的に抽出されるため、効率よく診断を行うことができるとともに、病変の見落としを防止することができる。
(実施の形態3)
 次に、本開示の実施の形態3について説明する。上述した実施の形態1では、設定部12が音声データに対して、解析部11が解析した注視度に応じた重要度を割り当てて記録部へ記録したが、実施の形態3では、設定部12が注視度と音声データに含まれる重要単語とに応じて重要度を割り当てて記録部14に記録する。以下においては、実施の形態3に係る情報処理システムの構成を説明後、実施の形態3に係る情報処理装置が実行する処理について説明する。なお、上述した実施の形態1に係る情報処理システムと同一の構成には同一の符号を付して詳細な説明は、省略する。
 〔情報処理システムの構成〕
 図11は、実施の形態3に係る情報処理システムの機能構成を示すブロック図である。図11に示す情報処理システム1bは、上述した実施の形態1に係る情報処理装置10に換えて、情報処理装置10bを備える。情報処理装置10bは、上述した実施の形態1に係る設定部12に換えて、設定部12bを備える。
 設定部12bは、外部から入力される利用者の音声を表す音声データの重要期間を設定する。具体的には、設定部12bは、外部から入力される重要単語情報に基づいて、外部から入力される利用者の音声を表す音声データの重要期間を設定する。例えば、設定部12bは、外部から入力されるキーワードが癌や出血等であり、各々の指数が「10」と「8」の場合、周知の音声パターンマッチング等を用いてキーワードが発せられた期間(区間又は時間)を重要期間に設定する。外部から入力される利用者の音声を表す音声データは、図示しないマイク等の音声入力部によって生成されたものである。なお、設定部12bは、キーワードが発せられた期間の前後、例えば1秒から2秒程度を含むように重要期間を設置してもよい。設定部12bは、CPU、FPGA及びGPU等を用いて構成される。なお、重要単語情報はあらかじめデータベース(音声データ、文字情報)で記憶されているものを使用しても良いし、使用者の入力(音声データ・キーボード入力)によるものでも良い。
 〔情報処理装置の処理〕
 次に、情報処理装置10bが実行する処理について説明する。図12は、実施の形態3に係る情報処理装置が実行する処理の概要を示すフローチャートである。図12に示すように、まず、情報処理装置10bは、外部から入力される視線データ、音声データ、キーワード及び画像データを取得する(ステップS301)。
 続いて、設定部12bは、外部から入力されたキーワードに基づいて、音声データにおいて重要単語であるキーワードが発せられた発声期間を判定し(ステップS302)、音声データにおいて重要単語が発せられた発声期間を重要期間に設定する(ステップS303)。ステップS303の後、情報処理装置10bは、後述するステップS304へ移行する。
 図13は、実施の形態3に係る解析部が視線データに重要度を設定する設定方法を模式的に説明する図である。図13において、横軸が時間を示し、図13の(a)の縦軸が注視度を示し、図13の(b)の縦軸が音声データ(発音の程度)を示し、図13の(c)の縦軸が重要度を示す。また、図13の(a)の曲線L4が注視度の時間変化を示し、図13の(b)の曲線L5が音声データの時間変化を示し、図13の(c)の曲線L6が重要度の時間変化を示す。
 図13の(b)に示すように、設定部12bは、利用者の注視度が高いとき(区間D3)の前後であって、かつ重要単語が発せられた期間の前後を重要期間D5に設定する。設定部12bは、音声データに対して周知の音声パターンマッチングを用いることによって、外部から入力された重要単語のキーワードが「癌」である場合、この「癌」が発せられた音声データの発声期間(発声時間)の前後を重要度が高い重要期間D5に設定する。これに対して、設定部12bは、利用者が音声を発声しているが、重要単語のキーワードが含まれていない期間D4を重要期間に設定しない。なお、設定部12bは、周知の音声パターンマッチング以外に、音声データを文字情報に変換した後に、この文字情報に対してキーワードに対応する期間を重要度が高い重要期間として設定してもよい。また、重要単語が発せられた場合であっても、その前後に利用者の注視度が高い区間がない場合、重要期間は設定されない。
 図12に戻り、ステップS304以降の説明を続ける。
 ステップS304において、図12は、利用者の視線データであって、音声データと同じ時間軸が対応付けられた視線データに対して、設定部12bが設定した音声データの重要期間に対応する期間(時間)に重要単語のキーワードに割り当てられた指数(例えば「癌」の場合、指数が「10」)に応じた対応視線期間を割り当てて音声データと視線データとを同期化させて記録部14に記録する。ステップS304の後、情報処理装置10bは、後述するステップS305へ移行する。
 図13に示すように、解析部11は、設定部12bによって設定された音声の重要度が設定された期間D5に基づき、対応する視線データの期間を設定する。
 なお、実施の形態3では、予め利用者の注視度と発音(発声)との時間差を算出し(キャリブレーションデータ)、この算出結果に基づいて利用者の注視度と発音(発声)とのずれを補正するキャリブレーション処理を行ってもよい。単純に音声重要度が高いキーワードが発声された期間を重要期間として、その一定時間の前後、あるいは、シフトした期間を対応視線期間としても良い。
 図12に戻り、ステップS305以降の説明を続ける。
 ステップS305において、注目領域設定部15aは、解析部11が解析した対応視線期間に応じて観察画像に注目領域を設定する。
 ステップS306において、生成部13は、画像データに対応する画像上に解析部11が解析した対応視線期間を関連付けた視線マッピングデータを生成する。
 続いて、表示制御部15は、画像データに対応する画像上に、注目領域を強調表示した視線マッピングデータを重畳して外部の表示部20に出力する(ステップS307)。
 図14は、実施の形態3に係る表示部が表示する画像の一例を模式的に示す図である。図14に示すように、表示制御部15は、画像データに対応する画像上に、注目領域を強調表示した視線マッピングデータに重畳した視線マッピング画像P31を表示部20に表示させる。図14においては、視線の注視度が高いほど、円の領域が大きい注視度のマークM11~M15が重畳された視線マッピング画像P31を表示部20に表示させる。さらに、表示制御部15は、各対応視線期間の期間(時間)で利用者が発した音声データを、周知の文字変換技術を用いて変換した文字情報(例えばメッセージQ11~Q13)を、マークM11~M15の近傍又は重畳して表示部20に表示させてもよい。また、表示制御部15は、注目領域を強調表示させる(例えば枠をハイライト表示又は太線で表示)。すなわち、マークM14が表す領域が注目領域であり、利用者がマークM14の示す領域を注視した後、重要単語を発声したことを表す。また、表示制御部15は、利用者の視線の軌跡K1及び注視度の順番を数字で表示部20に表示させてもよい。
 図12に戻り、ステップS308以降の説明を続ける。
 ステップS308において、類似領域抽出部15bは、観察画像において注目領域に類似した類似領域を抽出する(ステップS308)。
 その後、表示制御部15は、観察画像P21上において類似領域抽出部15bが抽出した類似領域を強調表示した画像を外部の表示部20に出力する(ステップS309)。ステップS309の後、情報処理装置10は、本処理を終了する。
 以上説明した実施の形態3によれば、注目領域設定部15aが重要単語に応じて類似領域を抽出するので、より確実に重要な領域を抽出することができる。その結果、重要な領域の見落しを防止する効果がさらに高い。
(実施の形態4)
 次に、本開示の実施の形態4について説明する。実施の形態1では、外部から視線データ及び音声データの各々が入力されていたが、実施の形態4では、視線データ及び音声データを生成する。以下においては、実施の形態4に係る情報処理装置の構成を説明後、実施の形態4に係る情報処理装置が実行する処理について説明する。なお、上述した実施の形態1に係る情報処理システム1と同一の構成には同一の符号を付して詳細な説明は適宜省略する。
 〔情報処理装置の構成〕
 図15は、実施の形態4に係る情報処理装置の構成を示す概略図である。図16は、実施の形態4に係る情報処理装置の構成を示す概略図である。図17は、実施の形態4に係る情報処理装置の機能構成を示すブロック図である。
 図15~図17に示す情報処理装置1cは、解析部11と、表示部20と、視線検出部30と、音声入力部31と、制御部32と、時間計測部33と、記録部34と、変換部35と、抽出部36と、操作部37と、設定部38と、生成部39と、を備える。
 視線検出部30は、近赤外線を照射するLED光源と、角膜上の瞳孔点と反射点を撮像する光学センサ(例えばCMOS、CCD等)と、を用いて構成される。視線検出部30は、利用者U1が表示部20を視認可能な情報処理装置1cの筐体の側面に設けられる(図15及び図16を参照)。視線検出部30は、制御部32の制御のもと、表示部20が表示する画像に対する利用者U1の視線を検出した視線データを生成し、この視線データを制御部32へ出力する。具体的には、視線検出部30は、制御部32の制御のもと、LED光源等から近赤外線を利用者U1の角膜に照射し、光学センサが利用者U1の角膜上の瞳孔点と反射点を撮像することによって視線データを生成する。そして、視線検出部30は、制御部32の制御のもと、光学センサによって生成されたデータに対して画像処理等によって解析した解析結果に基づいて、利用者U1の瞳孔点と反射点のパターンから利用者の視線を連続的に算出することによって所定時間の視線データを生成し、この視線データを後述する視線検出制御部321へ出力する。なお、視線検出部30は、単に光学センサのみで利用者U1の瞳を周知のパターンマッチングを用いることによって瞳を検出することによって、利用者U1の視線を検出した視線データを生成してもよいし、他のセンサや他の周知技術を用いて利用者U1の視線を検出することによって視線データを生成してもよい。
 音声入力部31は、音声が入力されるマイクと、マイクが入力を受け付けた音声をデジタルの音声データに変換するとともに、この音声データを増幅することによって制御部32へ出力する音声コーデックと、を用いて構成される。音声入力部31は、制御部32の制御のもと、利用者U1の音声の入力を受け付けることによって音声データを生成し、この音声データを制御部32へ出力する。なお、音声入力部31は、音声の入力以外にも、音声を出力することができるスピーカ等を設け、音声出力機能を設けてもよい。
 制御部32は、CPU、FPGA及びGPU等を用いて構成され、視線検出部30、音声入力部31及び表示部20を制御する。制御部32は、視線検出制御部321と、音声入力制御部322と、表示制御部323と、を有する。
 視線検出制御部321は、視線検出部30を制御する。具体的には、視線検出制御部321は、視線検出部30を所定のタイミング毎に近赤外線を利用者U1へ照射させるとともに、利用者U1の瞳を視線検出部30に撮像させることによって視線データを生成させる。また、視線検出制御部321は、視線検出部30から入力された視線データに対して、各種の画像処理を行って記録部34へ出力する。
 音声入力制御部322は、音声入力部31を制御し、音声入力部31から入力された音声データに対して各種の処理、例えばゲインアップやノイズ低減処理等を行って記録部34へ出力する。
 表示制御部323は、表示部20の表示態様を制御する。表示制御部323は、注目領域設定部323aと、類似領域抽出部323bと、を有する。
 注目領域設定部323aは、解析部11が解析した注視度及び設定部38から入力された重要度に応じて観察画像に注目領域を設定する。
 類似領域抽出部323bは、観察画像において注目領域に類似した類似領域を抽出する。
 表示制御部323は、記録部34に記録された画像データに対応する画像又は生成部39によって生成された視線マッピングデータに対応する視線マッピング画像を表示部20に表示させる。
 時間計測部33は、タイマーやクロックジェネレータ等を用いて構成され、視線検出部30によって生成された視線データ及び音声入力部31によって生成された音声データ等に対して時刻情報を付与する。
 記録部34は、揮発性メモリ、不揮発性メモリ及び記録媒体等を用いて構成され、情報処理装置1cに関する各種の情報を記録する。記録部34は、視線データ記録部341と、音声データ記録部342と、画像データ記録部343と、プログラム記録部344と、を有する。
 視線データ記録部341は、視線検出制御部321から入力された視線データを記録するとともに、視線データを解析部11へ出力する。
 音声データ記録部342は、音声入力制御部322から入力された音声データを記録するとともに、音声データを変換部35へ出力する。
 画像データ記録部343は、複数の画像データを記録する。この複数の画像データは、情報処理装置1cの外部から入力されたデータ、又は記録媒体によって外部の撮像装置によって撮像されたデータである。
 プログラム記録部344は、情報処理装置1cが実行する各種プログラム、各種プログラムの実行中に使用するデータ(例えばキーワードを登録した辞書情報やテキスト変換辞書情報)及び各種プログラムの実行中の処理データを記録する。
 変換部35は、音声データに対して周知のテキスト変換処理を行うことによって、音声データを文字情報(テキストデータ)に変換し、この文字情報を抽出部36へ出力する。
 なお、音声の文字変換はこの時点で行わない構成も可能であり、その際には、音声情報のまま重要度を設定し、その後文字情報に変換するようにしても良い。
 抽出部36は、後述する操作部37から入力された指示信号に対応する文字や単語(キーワード)を、変換部35によって変換された文字情報から抽出し、この抽出結果を設定部38へ出力する。なお、抽出部36は、後述する操作部37から指示信号が入力されていない場合、変換部35から入力されたままの文字情報を設定部38へ出力する。
 操作部37は、マウス、キーボード、タッチパネル及び各種スイッチ等を用いて構成され、利用者U1の操作の入力を受け付け、入力を受け付けた操作内容を制御部32へ出力する。
 設定部38は、所定の時間間隔毎に解析部11が解析した注視度と抽出部36によって抽出された文字情報とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34へ記録する。
 生成部39は、表示部20が表示する画像データに対応する画像上に解析部11が解析した注視度及び変換部35が変換した文字情報を関連付けた視線マッピングデータを生成し、この視線マッピングデータを画像データ記録部343又は表示制御部323へ出力する。
 〔情報処理装置の処理〕
 次に、情報処理装置1cが実行する処理について説明する。図18は、実施の形態4に係る情報処理装置が実行する処理の概要を示すフローチャートである。
 図18に示すように、まず、表示制御部323は、画像データ記録部343が記録する画像データに対応する画像を表示部20に表示させる(ステップS401)。この場合、表示制御部323は、操作部37の操作に応じて選択された画像データに対応する画像を表示部20に表示させる。
 続いて、制御部32は、視線検出部30が生成した視線データ及び音声入力部31が生成した音声データの各々と時間計測部33によって計測された時間とを対応付けて視線データ記録部341及び音声データ記録部342に記録する(ステップS402)。
 その後、変換部35は、音声データ記録部342が記録する音声データを文字情報に変換する(ステップS403)。なお、このステップは後述のS406の後に行っても良い。
 続いて、操作部37から表示部20が表示する画像の観察を終了する指示信号が入力された場合(ステップS404:Yes)、情報処理装置1cは、後述するステップS405へ移行する。これに対して、操作部37から表示部20が表示する画像の観察を終了する指示信号が入力されていない場合(ステップS404:No)、情報処理装置1cは、ステップS402へ戻る。
 ステップS405は、上述した図2のステップS102に対応する。ステップS405の後、情報処理装置1cは、後述するステップS406へ移行する。
 ステップS406において、設定部38は、所定の時間間隔毎に解析部11が解析した注視度と抽出部36によって抽出された文字情報とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34へ記録する。この場合、設定部38は、抽出部36によって抽出された文字情報に対応する音声データの重要度の重み付けを行って記録部34へ記録する。例えば、設定部38は、重要度に、抽出部36によって抽出された文字情報に基づく係数を注視度に乗じた値を重要度として音声データに割り当てを行って記録部34へ記録する。
 その後、注目領域設定部323aは、解析部11が解析した注視度及び設定部38が設定した重要度に応じて観察画像に注目領域を設定する(ステップS407)。
 続いて、生成部39は、表示部20が表示する画像データに対応する画像上に、解析部11が解析した注視度、変換部35が変換した文字情報、及び注目領域設定部323aが設定した注目領域を関連付けた視線マッピングデータを生成する(ステップS408)。
 続いて、表示制御部323は、生成部39が生成した視線マッピングデータに対応する視線マッピング画像を表示部20に表示させる(ステップS409)。
 図19は、表示部が表示する視線マッピング画像の一例を示す図である。図19に示すように、表示制御部323は、生成部39が生成した視線マッピングデータに対応する視線マッピング画像P41を表示部20に表示させる。視線マッピング画像P41には、視線の注視領域に対応するマークM11~M15及び視線の軌跡K1が重畳されるとともに、この注視度のタイミングで発せされた音声データの文字情報、及び注目領域設定部323aが設定した注目領域が関連付けられている。また、マークM11~M15は、番号が利用者U1の視線の順番を示し、大きさ(領域)が注視度の大きさを示す。さらに、利用者U1が操作部37を操作してカーソルA1を所望の位置、例えばマークM14に移動させた場合、マークM14に関連付けられた文字情報Q1、例えば「ここに癌があります。」が表示される。そして、マークM14が示す注目領域は強調表示されている(例えば枠をハイライト表示又は太線で表示)。なお、図19では、表示制御部323が文字情報を表示部20に表示させているが、例えば文字情報を音声に変換することによって音声データを出力してもよい。これにより、利用者U1は、重要な音声内容と注視していた領域とを直感的に把握することができる。さらに、利用者U1の観察時における視線の軌跡を直感的に把握することができる。
 図20は、表示部が表示する視線マッピング画像の別の一例を示す図である。図20に示すように、表示制御部323は、生成部39が生成した視線マッピングデータに対応する視線マッピング画像P42を表示部20に表示させる。さらに、表示制御部323は、文字情報と、この文字情報が発声された時間とを対応付けたアイコンB1~B5を表示部20に表示させる。さらに、表示制御部323は、注目領域であるマークM14を表示部20に強調表示するとともに、マークM14の時間に対応する文字情報、例えばアイコンB4を表示部20に強調表示させる(例えば枠をハイライト表示又は太線で表示)。これにより、利用者U1は、重要な音声内容と注視していた領域とを直感的に把握することができるうえ、発声した際の内容を直感的に把握することができる。
 図18に戻り、ステップS410以降の説明を続ける。
 ステップS410において、類似領域抽出部323bは、観察画像において注目領域に類似した類似領域を抽出する。具体的には、類似領域抽出部323bは、画像P41又は画像P42において、注目領域に類似した領域を類似領域として抽出する。
 その後、表示制御部323は、画像P41又は画像P42上において類似領域抽出部323bが抽出した類似領域を強調表示した画像を外部の表示部20に出力する(ステップS411)。
 続いて、操作部37によって複数の注視領域に対応するマークのいずれか一つが操作された場合(ステップS412:Yes)、制御部32は、操作に応じた動作処理を実行する(ステップS413)。具体的には、表示制御部323は、操作部37によって選択された注視領域に対応するマークに類似した注目領域を表示部20に強調表示させる(例えば図8を参照)。また、音声入力制御部322は、注視度の高い領域に関連付けられた音声データを音声入力部31に再生させる。ステップS413の後、情報処理装置1cは、後述するステップS414へ移行する。
 ステップS412において、操作部37によって複数の注視度領域に対応するマークのいずれか一つが操作されていない場合(ステップS412:No)、情報処理装置1cは、後述するステップS414へ移行する。
 ステップS414において、操作部37から観察の終了を指示する指示信号が入力された場合(ステップS414:Yes)、情報処理装置1cは、本処理を終了する。これに対して、操作部37から観察の終了を指示する指示信号が入力されていない場合(ステップS414:No)、情報処理装置1cは、上述したステップS409へ戻る。
 以上説明した実施の形態4によれば、注目領域設定部323aが利用者の視線の注視度及び発声に基づいて、利用者が注目している領域である注目領域を設定し、類似領域抽出部323bが注目領域に類似した類似領域を抽出することにより、利用者が検索したい病変等に似た領域を抽出することができる。その結果、効率よく診断を行うことができるとともに、病変の見落しを防止することができる。
 また、実施の形態4によれば、表示制御部323は、生成部39が生成した視線マッピングデータに対応する視線マッピング画像を表示部20に表示させるので、画像に対する利用者の観察の見逃し防止の確認、利用者の読影等の技術スキルの確認、他の利用者に対する読影や観察等の教育及びカンファレンス等に用いることができる。
(実施の形態5)
 次に、本開示の実施の形態5について説明する。上述した実施の形態4では、情報処理装置1cのみで構成されていたが、実施の形態5では、顕微鏡システムの一部に情報処理装置を組み込むことによって構成する。以下においては、実施の形態5に係る顕微鏡システムの構成を説明後、実施の形態5に係る顕微鏡システムが実行する処理について説明する。なお、上述した実施の形態4に係る情報処理装置1cと同一の構成には同一の符号を付して詳細な説明は適宜省略する。
 〔顕微鏡システムの構成〕
 図21は、実施の形態5に係る顕微鏡システムの構成を示す概略図である。図22は、実施の形態5に係る顕微鏡システムの機能構成を示すブロック図である。
 図21及び図22に示すように、顕微鏡システム100は、情報処理装置1dと、表示部20と、音声入力部31と、操作部37と、顕微鏡200と、撮像部210と、視線検出部220と、を備える。
 〔顕微鏡の構成〕
 まず、顕微鏡200の構成について説明する。
 顕微鏡200は、本体部201と、回転部202と、昇降部203と、レボルバ204と、対物レンズ205と、倍率検出部206と、鏡筒部207と、接続部208と、接眼部209と、を備える。
 本体部201は、標本SPが載置される。本体部201は、略U字状をなし、回転部202を用いて昇降部203が接続される。
 回転部202は、利用者U2の操作に応じて回転することによって、昇降部203を垂直方向へ移動させる。
 昇降部203は、本体部201に対して垂直方向へ移動可能に設けられている。昇降部203は、一端側の面にレボルバが接続され、他端側の面に鏡筒部207が接続される。
 レボルバ204は、互いに倍率が異なる複数の対物レンズ205が接続され、光軸L1に対して回転可能に昇降部203に接続される。レボルバ204は、利用者U2の操作に応じて、所望の対物レンズ205を光軸L1上に配置する。なお、複数の対物レンズ205には、倍率を示す情報、例えばICチップやラベルが添付されている。なお、ICチップやラベル以外にも、倍率を示す形状を対物レンズ205に設けてもよい。
 倍率検出部206は、光軸L1上に配置された対物レンズ205の倍率を検出し、この検出した検出結果を情報処理装置1cへ出力する。倍率検出部206は、例えば対物切り替えのレボルバ204の位置を検出する手段を用いて構成される。
 鏡筒部207は、対物レンズ205によって結像された標本SPの被写体像の一部を接続部208に透過するとともに、接眼部209へ反射する。鏡筒部207は、内部にプリズム、ハーフミラー及びコリメートレンズ等を有する。
 接続部208は、一端が鏡筒部207と接続され、他端が撮像部210と接続される。接続部208は、鏡筒部207を透過した標本SPの被写体像を撮像部210へ導光する。接続部208は、複数のコリメートレンズ及び結像レンズ等を用いて構成される。
 接眼部209は、鏡筒部207によって反射された被写体像を導光して結像する。接眼部209は、複数のコリメートレンズ及び結像レンズ等を用いて構成される。
 〔撮像部の構成〕
 次に、撮像部210の構成について説明する。
 撮像部210は、接続部208が結像した標本SPの被写体像を受光することによって画像データを生成し、この画像データを情報処理装置1dへ出力する。撮像部210は、CMOS又はCCD等のイメージセンサ及び画像データに対して各種の画像処理を施す画像処理エンジン等を用いて構成される。
 〔視線検出部の構成〕
 次に、視線検出部220の構成について説明する。
 視線検出部220は、接眼部209の内部又は外部に設けられ、利用者U2の視線を検出することによって視線データを生成し、この視線データを情報処理装置1dへ出力する。視線検出部220は、接眼部209の内部に設けられ、近赤外線を照射するLED光源と、接眼部209の内部に設けられ、角膜上の瞳孔点と反射点を撮像する光学センサ(例えばCMOS、CCD)と、を用いて構成される。視線検出部220は、情報処理装置1dの制御のもと、LED光源等から近赤外線を利用者U2の角膜に照射し、光学センサが利用者U2の角膜上の瞳孔点と反射点を撮像することによって生成する。そして、視線検出部222は、情報処理装置1dの制御のもと、光学センサによって生成されたデータに対して画像処理等によって解析した解析結果に基づいて、利用者U2の瞳孔点と反射点のパターンから利用者の視線を検出することによって視線データを生成し、この視線データを情報処理装置1dへ出力する。
 〔情報処理装置の構成〕
 次に、情報処理装置1dの構成について説明する。
 情報処理装置1dは、上述した実施の形態4に係る情報処理装置1cの制御部32、記録部34及び設定部38に換えて、制御部32c、記録部34c、設定部38cと、を備える。
 制御部32cは、CPU、FPGA及びGPU等を用いて構成され、表示部20、音声入力部31、撮像部210及び視線検出部220を制御する。制御部32cは、上述した実施の形態4の制御部32の視線検出制御部321、音声入力制御部322、表示制御部323に加えて、撮影制御部324及び倍率算出部325をさらに備える。
 撮影制御部324は、撮像部210の動作を制御する。撮影制御部324は、撮像部210を所定のフレームレートに従って順次撮像させることによって画像データを生成させる。撮影制御部324は、撮像部210から入力された画像データに対して処理の画像処理(例えば現像処理等)を施して記録部34cへ出力する。
 倍率算出部325は、倍率検出部206から入力された検出結果に基づいて、現在の顕微鏡200の観察倍率を算出し、この算出結果を設定部38cへ出力する。例えば、倍率算出部325は、倍率検出部206から入力された対物レンズ205の倍率と接眼部209の倍率とに基づいて、現在の顕微鏡200の観察倍率を算出する。
 記録部34cは、揮発性メモリ、不揮発性メモリ及び記録媒体等を用いて構成される。記録部34cは、上述した実施の形態4に係る画像データ記録部343に換えて、画像データ記録部345を備える。画像データ記録部345は、撮影制御部324から入力された画像データを記録し、この画像データを生成部39へ出力する。
 設定部38cは、所定の時間間隔毎に解析部11が解析した注視度と倍率算出部325が算出した算出結果とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34cへ記録する。具体的には、設定部38cは、解析部11が解析した注視度に、倍率算出部325が算出した算出結果に基づく係数を乗じた値を、音声データのフレーム毎の重要度(例えば数値)として割り当てて記録部34cへ記録する。すなわち、設定部38cは、表示倍率が大きいほど重要度が高くなるような処理を行う。設定部38cは、CPU、FPGA及びGPU等を用いて構成される。
 〔顕微鏡システムの処理〕
 次に、顕微鏡システム100が実行する処理について説明する。図23は、実施の形態5に係る顕微鏡システムが実行する処理の概要を示すフローチャートである。
 図23に示すように、まず、制御部32cは、視線検出部30が生成した視線データ、音声入力部31が生成した音声データ、及び倍率算出部325が算出した観察倍率の各々を時間計測部33によって計測された時間を対応付けて視線データ記録部341及び音声データ記録部342に記録する(ステップS501)。ステップS501の後、顕微鏡システム100は、後述するステップS502へ移行する。
 ステップS502~ステップS504は、上述した図18のステップS403~ステップS405それぞれに対応する。ステップS504の後、顕微鏡システム100は、ステップS505へ移行する。
 ステップS505において、設定部38cは、所定の時間間隔毎に解析部11が解析した注視度と倍率算出部325が算出した算出結果とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34cへ記録する。ステップS505の後、顕微鏡システム100は、ステップS506へ移行する。
 ステップS506~ステップS513は、上述した図18のステップS407~ステップS414それぞれに対応する。
 以上説明した実施の形態5によれば、観察倍率及び注視度に基づいた重要度が音声データに割り当てられるので、観察内容及び注視度を加味して注目領域を設定し、この注目領域に類似した類似領域を効率的に観察することができるとともに、病変等の見逃しを防止することができる。
 なお、実施の形態5では、倍率算出部325が算出した観察倍率を記録部14に記録していたが、利用者U2の操作履歴を記録し、この操作履歴をさらに加味して音声データの重要度を割り当ててもよい。
(実施の形態6)
 次に、本開示の実施の形態6について説明する。実施の形態6では、内視鏡システムの一部に情報処理装置を組み込むことによって構成する。以下においては、実施の形態6に係る内視鏡システムの構成を説明後、実施の形態6に係る内視鏡システムが実行する処理について説明する。なお、上述した実施の形態4に係る情報処理装置1cと同一の構成には同一の符号を付して詳細な説明は適宜省略する。
 〔内視鏡システムの構成〕
 図24は、実施の形態6に係る内視鏡システムの構成を示す概略図である。図25は、実施の形態6に係る内視鏡システムの機能構成を示すブロック図である。
 図24及び図25に示す内視鏡システム300は、表示部20と、内視鏡400と、ウェアラブルデバイス500と、入力部600と、情報処理装置1eと、を備える。
 〔内視鏡の構成〕
 まず、内視鏡400の構成について説明する。
 内視鏡400は、医者や術者等の利用者U3が被検体U4に挿入することによって、被検体U4の内部を撮像することによって画像データを生成し、この画像データを情報処理装置1eへ出力する。内視鏡400は、撮像部401と、操作部402と、を備える。
 撮像部401は、内視鏡400の挿入部の先端部に設けられる。撮像部401は、情報処理装置1eの制御のもと、被検体U4の内部を撮像することによって画像データを生成し、この画像データを情報処理装置1eへ出力する。撮像部401は、観察倍率を変更することができる光学系と、光学系が結像した被写体像を受光することによって画像データを生成するCMOSやCCD等のイメージセンサ等を用いて構成される。
 操作部402は、利用者U3の各種の操作の入力を受け付け、受け付けた各種操作に応じた操作信号を情報処理装置1eへ出力する。
 〔ウェアラブルデバイスの構成〕
 次に、ウェアラブルデバイス500の構成について説明する。
 ウェアラブルデバイス500は、利用者U3に装着され、利用者U3の視線を検出するとともに、利用者U3の音声の入力を受け付ける。ウェアラブルデバイス500は、視線検出部510と、音声入力部520と、を有する。
 視線検出部510は、ウェアラブルデバイス500に設けられ、利用者U3の視線の注視度を検出することによって視線データを生成し、この視線データを情報処理装置1eへ出力する。視線検出部510は、上述した実施の形態5に係る視線検出部220と同様の構成を有するため、詳細な構成は省略する。
 音声入力部520は、ウェアラブルデバイス500に設けられ、利用者U3の音声の入力を受け付けることによって音声データを生成し、この音声データを情報処理装置1eへ出力する。音声入力部520は、マイク等を用いて構成される。
 〔入力部の構成〕
 入力部600の構成について説明する。
 入力部600は、マウス、キーボード、タッチパネル及び各種のスイッチを用いて構成される。入力部600は、利用者U3の各種の操作の入力を受け付け、受け付けた各種操作に応じた操作信号を情報処理装置1eへ出力する。
 〔情報処理装置の構成〕
 次に、情報処理装置1eの構成について説明する。
 情報処理装置1eは、上述した実施の形態5に係る情報処理装置1dの制御部32c、記録部34c、設定部38c、生成部39に換えて、制御部32d、記録部34d、設定部38d及び生成部39dを備える。さらに、情報処理装置1dは、画像処理部40をさらに備える。
 制御部32dは、CPU、FPGA及びGPU等を用いて構成され、内視鏡400、ウェアラブルデバイス500及び表示部20を制御する。制御部32dは、視線検出制御部321、音声入力制御部322、表示制御部323、撮影制御部324に加えて、操作履歴検出部326を備える。
 操作履歴検出部326は、内視鏡400の操作部402が入力を受け付けた操作の内容を検出し、この検出結果を記録部34dに出力する。具体的には、操作履歴検出部326は、内視鏡400の操作部402から拡大スイッチが操作された場合、この操作内容を検出し、この検出結果を記録部34dに出力する。なお、操作履歴検出部326は、内視鏡400を経由して被検体U4の内部に挿入される処置具の操作内容を検出し、この検出結果を記録部34dに出力してもよい。
 記録部34dは、揮発性メモリ、不揮発性メモリ及び記録媒体等を用いて構成される。記録部34dは、上述した実施の形態5に係る記録部34cの構成に加えて、操作履歴記録部346をさらに備える。
 操作履歴記録部346は、操作履歴検出部326から入力された内視鏡400の操作部402に対する操作の履歴を記録する。
 設定部38dは、所定の時間間隔毎に解析部11が解析した注視度と操作履歴記録部346が記録する操作履歴とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34dへ記録する。具体的には、設定部38dは、解析部11が解析した注視度と操作履歴記録部346が記録する操作履歴とに基づいて、音声データのフレーム毎に重要度(例えば数値)を割り当てて記録部34dへ記録する。すなわち、設定部38dは、操作履歴の内容に応じて設定された係数が大きいほど重要度が高くなるような処理を行う。設定部38dは、CPU、FPGA及びGPU等を用いて構成される。
 生成部39dは、画像処理部40が生成した統合画像データに対応する統合画像上に、解析部11が解析した注視度及び文字情報を関連付けた視線マッピングデータを生成し、この生成した視線マッピングデータを記録部34d及び表示制御部323へ出力する。
 画像処理部40は、画像データ記録部345が記録する複数の画像データを合成することによって3次元画像の統合画像データを生成し、この統合画像データを生成部39dへ出力する。
 〔内視鏡システムの処理〕
 次に、内視鏡システム300が実行する処理について説明する。図26は、実施の形態6に係る内視鏡システムが実行する処理の概要を示すフローチャートである。
 図26に示すように、まず、制御部32dは、視線検出部510が生成した視線データ、音声入力部520が生成した音声データ、及び操作履歴検出部326が検出した操作履歴の各々を時間計測部33によって計測された時間と対応付けて視線データ記録部341、音声データ記録部342及び操作履歴記録部346に記録する(ステップS601)。ステップS601の後、内視鏡システム300は、後述するステップS602へ移行する。
 ステップS602~ステップS604は、上述した図18のステップS403~ステップS405それぞれに対応する。ステップS604の後、内視鏡システム300は、ステップS605へ移行する。
 ステップS605において、設定部38dは、所定の時間間隔毎に解析部11が解析した注視度と操作履歴記録部346が記録する操作履歴とに基づいて、視線データと同じ時間軸が対応付けられた音声データに重要度及び変換部35によって変換された文字情報を割り当てて記録部34dへ記録する。
 続いて、画像処理部40は、画像データ記録部345が記録する複数の画像データを合成することによって3次元画像の統合画像データを生成し、この統合画像データを生成部39dへ出力する(ステップS606)。図27は、画像データ記録部345が記録する複数の画像データに対応する複数の画像の一例を模式的に示す図である。図28は、画像処理部が生成する統合画像データに対応する統合画像の一例を示す図である。図27及び図28に示すように、画像処理部40は、時間的に連続する複数の画像データP11~P(N=整数)を合成することによって統合画像データに対応する統合画像P100を生成する。
 その後、注目領域設定部323aは、解析部11が解析した注視度及び設定部38dが設定した重要度に応じて、統合画像データに注目領域を設定する(ステップS607)。
 続いて、生成部39dは、画像処理部40が生成した統合画像データに対応する統合画像P100上に、解析部11が解析した注視度、視線、文字情報、及び注目領域を関連付けた視線マッピングデータを生成し、この生成した視線マッピングデータを記録部34d及び表示制御部323へ出力する(ステップS608)。この場合、生成部39dは、画像処理部40が生成した統合画像データに対応する統合画像P100上に、解析部11が解析した注視度、視線K2、文字情報、注目領域に加えて、操作履歴を関連付けてもよい。ステップS608の後、内視鏡システム300は、後述するステップS609へ移行する。
 ステップS609において、表示制御部323は、画像データに対応する画像上に、注目領域を強調表示した視線マッピングデータを重畳して外部の表示部20に出力する。具体的には、表示制御部323は、画像データP11~Pの各画像において、注目領域を強調表示して表示部20に表示させる。
 続いて、類似領域抽出部323bは、観察画像において注目領域に類似した類似領域を抽出する(ステップS610)。具体的には、類似領域抽出部323bは、画像データP11~Pの各画像において、注目領域に類似した特徴量を有する領域を類似領域として抽出する。
 その後、表示制御部323は、画像データP11~Pの各画像上において類似領域抽出部323bが抽出した類似領域を強調表示した画像を外部の表示部20に出力する(ステップS611)。
 図29は、実施の形態6に係る表示部が表示する画像の一例を模式的に示す図である。図29に示すように、表示制御部323は、例えば画像データPにおいて、注目領域M31及び類似領域M32、M33を強調表示した画像を表示部20に表示させる。さらに、表示制御部323は、図28に示す統合画像P100において、注目領域及び類似領域を強調表示した画像を表示部20に表示させてもよい。図30は、図28において類似領域を強調表示した様子を表す図である。図30に示すように、表示制御部323は、例えば統合画像P100において、注目領域M31及び類似領域M32~M34を強調表示した画像を表示部20に表示させる。
 ステップS612~ステップS614は、上述した図18のステップS412~ステップS414それぞれに対応する。
 以上説明した実施の形態6によれば、注目領域設定部323aが利用者の視線の注視度及び発声に基づいて、利用者が注目している領域である注目領域を設定し、類似領域抽出部323bが注目領域に類似した類似領域を抽出することにより、内視鏡システムを用いた観察において、利用者が検索したい病変等に似た領域を抽出することができる。その結果、効率よく診断を行うことができるとともに、病変の見落しを防止することができる。
 なお、実施の形態6では、画像データP11~P及び統合画像P100において類似領域を強調表示させたが、画像データP11~P又は統合画像P100Pのいずれか一方において類似領域を強調表示させてもよい。
 また、実施の形態6では、内視鏡システムであったが、例えばカプセル型の内視鏡、被検体を撮像するビデオマイクロスコープ、撮像機能を有する携帯電話及び撮像機能を有するタブレット型端末であっても適用することができる。
 また、実施の形態6では、軟性の内視鏡を備えた内視鏡システムであったが、硬性の内視鏡を備えた内視鏡システム、工業用の内視鏡を備えた内視鏡システムであっても適用することができる。
 また、実施の形態6では、被検体に挿入される内視鏡を備えた内視鏡システムであったが、副鼻腔内視鏡及び電気メスや検査プローブ等の内視鏡システムであっても適用することができる。
(その他の実施の形態)
 上述した実施の形態1~6に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、上述した実施の形態1~6に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、上述した実施の形態1~6で説明した構成要素を適宜組み合わせてもよい。
 また、実施の形態1~6において、上述してきた「部」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
 また、実施の形態1~6に係る情報処理装置に実行させるプログラムは、インストール可能な形式又は実行可能な形式のファイルデータでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)、USB媒体、フラッシュメモリ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
 また、実施の形態1~6に係る情報処理装置に実行させるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。さらに、実施の形態1~6に係る情報処理装置に実行させるプログラムをインターネット等のネットワーク経由で提供又は配布するようにしてもよい。
 また、実施の形態1~6では、伝送ケーブルを経由して各種機器から信号を送信していたが、例えば有線である必要はなく、無線であってもよい。この場合、所定の無線通信規格(例えばWi-Fi(登録商標)やBluetooth(登録商標))に従って、各機器から信号を送信するようにすればよい。もちろん、他の無線通信規格に従って無線通信を行ってもよい。
 なお、本明細書におけるフローチャートの説明では、「まず」、「その後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、本発明を実施するために必要な処理の順序は、それらの表現によって一意的に定められるわけではない。即ち、本明細書で記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。
 さらなる効果や変形例は、当業者によって容易に導き出すことができる。よって、本発明のより広範な態様は、以上のように表し、かつ記述した特定の詳細及び代表的な実施の形態に限定されるものではない。従って、添付のクレーム及びその均等物によって定義される総括的な発明の概念の精神又は範囲から逸脱することなく、様々な変更が可能である。
 1、1a、1b 情報処理システム
 1c、1d、1e、10、10a、10b 情報処理装置
 11 解析部
 12、12b、38 設定部
 13、39 生成部
 14、34 記録部
 15、323 表示制御部
 15a、323a 注目領域設定部
 15b、15ba、323b 類似領域抽出部
 20 表示部
 21 記録装置
 30 視線検出部
 31 音声入力部
 32 制御部
 33 時間計測部
 35 変換部
 36 抽出部
 37 操作部
 100 顕微鏡システム
 321 視線検出制御部
 322 音声入力制御部
 341 視線データ記録部
 342 音声データ記録部
 343 画像データ記録部
 344 プログラム記録部

Claims (9)

  1.  利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析する解析部と、
     外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録する設定部と、
     前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する注目領域設定部と、
     を備える情報処理装置。
  2.  前記設定部は、前記注視度と、前記音声データに含まれる重要単語とに応じて前記重要度を割り当てる請求項1に記載の情報処理装置。
  3.  前記観察画像において前記注目領域に類似した領域を抽出する類似領域抽出部をさらに備える請求項1又は2に記載の情報処理装置。
  4.  データベースに格納された画像群において前記注目領域に類似した領域を抽出する類似領域抽出部をさらに備える請求項1~3のいずれか1つに記載の情報処理装置。
  5.  前記利用者の視線を連続的に検出することによって前記視線データを生成する視線検出部と、
     前記利用者の音声の入力を受け付けて前記音声データを生成する音声入力部と、
     をさらに備える請求項1~4のいずれか1つに記載の情報処理装置。
  6.  標本を観察する観察倍率を変更可能であり、前記利用者が前記標本の観察像を観察可能な接眼部を有する顕微鏡と、
     前記顕微鏡に接続され、前記顕微鏡が結像した前記標本の観察像を撮像することによって画像データを生成する撮像部と、
     をさらに備え、
     前記視線検出部は、前記顕微鏡の接眼部に設けられ、
     前記注目領域設定部は、前記観察倍率に応じて前記注目領域を設定する請求項5に記載の情報処理装置。
  7.  被検体に挿入可能な挿入部の先端部に設けられ、被検体内の体内を撮像することによって画像データを生成する撮像部と、
     視野を変更するための各種の操作の入力を受け付ける操作部と、
     を有する内視鏡をさらに備える請求項1~5のいずれか1つに記載の情報処理装置。
  8.  情報処理装置が実行する情報処理方法であって、
     利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析し、
     外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録し、
     前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定する情報処理方法。
  9.  情報処理装置が、
     利用者の視線を検出して外部から入力される視線データに基づいて、観察画像に対する前記利用者の視線の注視度を解析し、
     外部から入力される前記利用者の音声を表す音声データであって、前記視線データと同じ時間軸が対応付けられた音声データに対して、前記注視度に応じた重要度を割り当てて、前記音声データ及び前記重要度を記録部へ記録し、
     前記注視度及び前記重要度に応じて前記観察画像に注目領域を設定するプログラム。
PCT/JP2018/045370 2018-12-10 2018-12-10 情報処理装置、情報処理方法、及びプログラム WO2020121382A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020558818A JP7171985B2 (ja) 2018-12-10 2018-12-10 情報処理装置、情報処理方法、及びプログラム
PCT/JP2018/045370 WO2020121382A1 (ja) 2018-12-10 2018-12-10 情報処理装置、情報処理方法、及びプログラム
US17/340,691 US20210297635A1 (en) 2018-12-10 2021-06-07 Information processing device, information processing method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/045370 WO2020121382A1 (ja) 2018-12-10 2018-12-10 情報処理装置、情報処理方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/340,691 Continuation US20210297635A1 (en) 2018-12-10 2021-06-07 Information processing device, information processing method, and computer-readable recording medium

Publications (1)

Publication Number Publication Date
WO2020121382A1 true WO2020121382A1 (ja) 2020-06-18

Family

ID=71076293

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/045370 WO2020121382A1 (ja) 2018-12-10 2018-12-10 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210297635A1 (ja)
JP (1) JP7171985B2 (ja)
WO (1) WO2020121382A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022173962A1 (en) * 2021-02-11 2022-08-18 Nuance Communications, Inc. Communication system and method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6927443B2 (ja) * 2019-01-10 2021-09-01 カシオ計算機株式会社 診断支援装置、診断支援方法及びプログラム
EP3786765A1 (en) * 2019-08-29 2021-03-03 Leica Instruments (Singapore) Pte. Ltd. Microscope, control circuit, method and computer program for generating information on at least one inspected region of an image
JP7239511B2 (ja) * 2020-02-26 2023-03-14 株式会社日立製作所 画像予測システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293818A (ja) * 2006-03-28 2007-11-08 Fujifilm Corp 画像記録装置、画像記録方法、および画像記録プログラム
JP2007328675A (ja) * 2006-06-09 2007-12-20 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2016006478A (ja) * 2014-05-27 2016-01-14 日本電信電話株式会社 顕著度画像生成装置、方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10616491B2 (en) * 2013-02-01 2020-04-07 Deka Products Limited Partnership Endoscope with pannable camera and related method
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
US10203491B2 (en) * 2016-08-01 2019-02-12 Verily Life Sciences Llc Pathology data capture
US10657838B2 (en) * 2017-03-15 2020-05-19 International Business Machines Corporation System and method to teach and evaluate image grading performance using prior learned expert knowledge base

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293818A (ja) * 2006-03-28 2007-11-08 Fujifilm Corp 画像記録装置、画像記録方法、および画像記録プログラム
JP2007328675A (ja) * 2006-06-09 2007-12-20 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2016006478A (ja) * 2014-05-27 2016-01-14 日本電信電話株式会社 顕著度画像生成装置、方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022173962A1 (en) * 2021-02-11 2022-08-18 Nuance Communications, Inc. Communication system and method
US11705232B2 (en) 2021-02-11 2023-07-18 Nuance Communications, Inc. Communication system and method

Also Published As

Publication number Publication date
JPWO2020121382A1 (ja) 2021-10-21
US20210297635A1 (en) 2021-09-23
JP7171985B2 (ja) 2022-11-16

Similar Documents

Publication Publication Date Title
WO2020121382A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7064952B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5317415B2 (ja) 画像出力装置、画像出力方法、および画像出力プログラム
JP4869978B2 (ja) 画像記録装置、画像記録方法、および画像記録プログラム
US10754425B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable recording medium
CN109564778A (zh) 病理学数据捕获
JP4537901B2 (ja) 視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラム
JP2013258627A (ja) 画像処理装置および立体画像観察システム
JP2007289656A (ja) 画像記録装置、画像記録方法、および画像記録プログラム
JP2007289659A (ja) 画像記録装置、画像記録方法、および画像記録プログラム
JP5401386B2 (ja) 情報処理システム及び情報処理方法
CN112673608A (zh) 用于确定移动设备的用户的认知状态的装置、方法和程序
US9888847B2 (en) Ophthalmic examination system
JP2016224554A (ja) 眼前装着型表示装置
CN104768495A (zh) 用于确定牙科对象的至少一个相关单幅图像的方法
JP2007289657A (ja) 画像記録装置、画像記録方法、および画像記録プログラム
JP2019202131A (ja) 情報処理装置、情報処理方法およびプログラム
US10971174B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable recording medium
JP2018047067A (ja) 画像処理プログラム、画像処理方法および画像処理装置
WO2022070423A1 (ja) 情報処理装置、情報処理装置の作動方法、及びプログラム
WO2021144970A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2019204503A (ja) 情報処理装置、情報処理方法およびプログラム
CN111465916A (zh) 信息处理装置、信息处理方法以及程序
WO2022044095A1 (ja) 情報処理装置、学習装置、及び学習済みモデル
Weissenfeld et al. Video-realistic image-based eye animation via statistically driven state machines

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18942715

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020558818

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18942715

Country of ref document: EP

Kind code of ref document: A1