WO2018010036A1 - Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad - Google Patents

Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad Download PDF

Info

Publication number
WO2018010036A1
WO2018010036A1 PCT/CL2016/050037 CL2016050037W WO2018010036A1 WO 2018010036 A1 WO2018010036 A1 WO 2018010036A1 CL 2016050037 W CL2016050037 W CL 2016050037W WO 2018010036 A1 WO2018010036 A1 WO 2018010036A1
Authority
WO
WIPO (PCT)
Prior art keywords
vocal
contact
vocal cords
points
edges
Prior art date
Application number
PCT/CL2016/050037
Other languages
English (en)
French (fr)
Inventor
Matías ZAÑARTU SALAS
Manuel Esteban DIAZ CADIZ
Original Assignee
Universidad Técnica Federico Santa María
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad Técnica Federico Santa María filed Critical Universidad Técnica Federico Santa María
Priority to PCT/CL2016/050037 priority Critical patent/WO2018010036A1/es
Priority to EP16908372.2A priority patent/EP3489857A4/en
Priority to ARP170101968A priority patent/AR109057A1/es
Publication of WO2018010036A1 publication Critical patent/WO2018010036A1/es
Priority to US16/247,099 priority patent/US10783630B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • G06T7/0016Biomedical image inspection using an image reference approach involving temporal comparison
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/267Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the respiratory tract, e.g. laryngoscopes, bronchoscopes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/267Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the respiratory tract, e.g. laryngoscopes, bronchoscopes
    • A61B1/2673Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the respiratory tract, e.g. laryngoscopes, bronchoscopes for monitoring movements of vocal chords
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0048Detecting, measuring or recording by applying mechanical forces or stimuli
    • A61B5/0053Detecting, measuring or recording by applying mechanical forces or stimuli by applying pressure, e.g. compression, indentation, palpation, grasping, gauging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1107Measuring contraction of parts of the body, e.g. organ, muscle
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2576/00Medical imaging apparatus involving image processing or analysis
    • A61B2576/02Medical imaging apparatus involving image processing or analysis specially adapted for a particular organ or body part
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Definitions

  • the present invention relates to a method of extraction and analysis of clinical information associated with the vibration that occurs in the vocal cords, from laryngeal videoendoscopy examinations.
  • the proposed method aims to estimate the force and contact pressure suffered by the vocal cords during periods of glottal closure.
  • the voice is a phenomenon produced by the coordinated action between the respiratory system, the larynx and the nasal and vocal cavities. At the moment of speech, these structures are usually complemented to generate sound, through the sustained vibration of the vocal cords, a process known as phonation.
  • the study of voice is closely related to the extraction, estimation and analysis of relevant medical parameters during these phonatory processes.
  • the evaluation of vocal function is examined clinically considering aerodynamic, acoustic and mechanical components involved in the speech process in patients, with laryngoscopic inspection being the most direct medical examination to study vocal function and its possible disorders.
  • the vocal disorders are due to poor treatment or misuse of the vocal cords. These abuses are recurrent when the voice is forced to speak, sing, scream, cough or expose the larynx to irritants, reflux or cigarette.
  • the most common disorders of Vocal cords include laryngitis, vocal nodules, polyps and vocal paralysis.
  • Laryngitis is an inflammation of the vocal cords that is perceived as a rough or raspy voice. It can be caused by excessive use of voice, reflux, infections, or irritants.
  • the vocal nodules are benign growths on the vocal cords produced by voice abuse, they are small and usually grow in pairs.
  • a polyp Reinke edema or polypoid degeneration
  • a polyp is a soft growth similar to a blister that usually grows only on a vocal cord. It is often produced by prolonged tobacco use, although other causes may be hypothyroidism, reflux or continuous misuse of the voice.
  • Vocal polyps cause the voice to be hoarse, low, and choppy.
  • Paralysis of the vocal cords is a loss of motor control of the larynx that prevents the folds from opening or closing properly, which can occur in one or both vocal cords.
  • a person may have difficulty swallowing and / or coughing when suffering from paralysis.
  • Dysphonia is a term used to refer to alterations of the voice when it differs to the point of calling attention to other people of the same gender, age and cultural group, comparing timbre, tone, volume and flexibility of diction .
  • Functional dysphonia also known as muscle tension dysphonia (MTD)
  • MTD muscle tension dysphonia
  • This type of dysphonia is manifested externally by rapid exhaustion of pulmonary air, wheezing and excessive muscle contraction.
  • Laryngoscopic inspection is a medical examination that allows the vocal cords to be directly visualized by means of a tube (which can be rigid or flexible) through which a light is sent and by its optical configuration it allows to obtain images of the inside of the larynx.
  • a tube which can be rigid or flexible
  • One end of this is introduced orally (rigid endoscope) or nasally (flexible endoscope) and the other end can be inspected by the clinician's eye or be coupled to a camera to record the examination.
  • the stroboscopic principle is basically the capture of images with intermittent illumination at a refresh rate slightly deviated (to a fraction) from the fundamental frequency of the vibration of the strings, causing an aliasing effect that allows reconstructing an apparent oscillation sequence of the vocal cords from several real oscillation cycles.
  • These systems work quite well as long as the patients studied maintain a sustained and symmetric phonation regime.
  • Pathological cases with asymmetric vibrations or irregular patterns present a problem for stroboscopic systems, because the representation of the oscillations is lost. This limitation can be a problem when studying how lesions develop in the tissue when the synchronization of the same in phonation is not good.
  • a more objective representation method corresponds to a technique called video-chemography, which consists of capturing a cross section of the vocal fold in the video, agglomerating the lines captured during the time one after the other, forming a single image called a quimogram . With it it is possible to evaluate oscillation irregularities, tone interruptions, delay at the start of vibration, asymmetries, etc.
  • the analysis The chemogram is commonly visual and takes into account only a cross section of the glottis.
  • Another representation of the developed phonology cycle is the fonovibrogram, which consists of a visualization technique that separates the vocal folds and generates a temporal space map of the deflection of each fold with respect to a medial axis.
  • This representation presents facilities to differentiate different vocal registers depending on the geometric shape that the representation adopts for each case.
  • Intraglotral pressure has also been measured directly on the cannulated extirpated laringes. In this case, it has been observed that the moments of impact of the vocal cords produce acute pulses of contact pressure, which are positively related to the induced subglottic pressure, the maximum elongation that the tissue reaches and the adduction of the vocal cords. (due to the posture and muscular activation of the larynx).
  • DIC is shown as a potential indirect estimator of collision stress, but it may be biased, because the damage of the vocal tissue due to the impact occurs inside the tissue and not on the upper surface, where the variations of the deformation are calculated. Therefore, this approach is susceptible to overestimating collision forces. In addition, DIC would require a safe way to generate a pattern of small dots on the vocal tissue to apply this method in vivo to some patient, which is not yet resolved.
  • acoustic metrics are commonly used for the evaluation of the voice, such as sound intensity (Sound Level Pressure, SPL), fundamental frequency, jitter (percentage variation of the fundamental frequency), shimmer (percentage variation of the sound intensity), harmonic relation- noise (Harmonic-to-noise ratio, H / N), etc.
  • SPL Sound Level Pressure
  • jitter percentage variation of the fundamental frequency
  • shimmer percentage variation of the sound intensity
  • harmonic relation- noise Harmonic-to-noise ratio
  • H / N Harmonic-to-noise ratio
  • Aerodynamic metrics are somewhat more difficult to extract directly, but there are techniques to determine their values from oral flow and pressure, using a Rothenberg mask.
  • Pre-established vocal exercises are requested to the patient to be recorded with an acquisition system and then be processed. From these data we estimate subglotal pressure, maximum phonation time (Maximum Phonation Time, MPT), glottal air flow, maximum flow decline rate (Maximum Flow Declination Rate, MFDR), continuous component of the air flow (DC Flow), etc.
  • MPT maximum Phonation Time
  • MFDR Maximum Flow Declination Rate
  • DC Flow continuous component of the air flow
  • Finding objective methods that improve the clinical analysis of these exams is critical at this point, since obtaining detailed information on the kinematics of the vocal cords allows the study of their mechanical behavior.
  • document US2005219376 discloses an image recording device, preferably an image color printing device with recording modes for vocal cord examination.
  • the document describes that the recording device comprises an endoscope for mapping the vocal cords.
  • Document WO2014148712 relates to a videochimography system for analyzing the state of movement of the mucosa of the vocal cords.
  • the system includes: a laryngoscope for observing the vocal cords; a light source to illuminate the vocal cords; a video camera to record and store observed images through the laryngoscope; a computer that incorporates an image capture unit for the conversion of a video signal transmitted from the video camera into a digital image signal, a storage unit for storing the digital image signal, a control unit for the analysis of the image signal of the storage unit and the display of the results of the analysis on a monitor, and analysis software for the analysis of the image signal of the storage unit; and a monitor that is for the visualization of an analysis of the image and captured results.
  • the present invention also comprises a method for video processing that allows performing this task. This method makes it possible to complement the clinical study of phthotraumatic dysphonia with objective information and that these indirect estimates are simple enough to be applied in contexts where videoendoscopic examination is available.
  • Figure 1 corresponds to a block diagram with the steps of the contact force analysis method, according to one embodiment of the invention.
  • Figure 2 corresponds to an image of a vocal cord with its respective edges and predefined attachment points, according to one embodiment of the invention.
  • Figure 3 corresponds to an image of a vocal chord in the stage of detection of vocal edges, according to an embodiment of the invention.
  • Figure 4 corresponds to a temporal representation of the detection stage, according to one embodiment of the invention.
  • Figure 5 corresponds to an image of the recording stage of the vocal cords, according to an embodiment of the invention.
  • Figure 6 corresponds to a temporary representation of the registration stage, according to one embodiment of the invention.
  • Figure 7 corresponds to an estimate of coefficients during the contact in the monitoring stage, according to an embodiment of the invention.
  • Figure 8 corresponds to a temporal representation of the monitoring stage, according to an embodiment of the invention.
  • Figure 9 corresponds to the stage of estimation of the contact in the vocal cords, according to an embodiment of the invention.
  • the present invention is related to a method of contact force analysis or CFA (Collision Forcé Analysis for its acronym in English). Said method comprises at least 5 stages, as shown in Figure 1
  • At least one high-speed laryngoscopic video (1) (called High Speed Videoendoscopy or HSV) is presented as an input to the method, to generate at least one image and vocal cords videos (2).
  • HSV High Speed Videoendoscopy
  • the images and videos are sent to a processing unit (not shown in the figures), where a pre-processing stage (100) is applied to correct the orientation of the glottis, defining a region of interest ( ROI) in its location.
  • an edge detection (200) is performed on the vocal folds, which is processed by a sequence of operators (300) that analyze the gradient information in the image.
  • each edge (2a, 2b) of the vocal cord (right and left) is segmented and a polynomial adjustment is applied to register the set of points found for each edge (2a, 2b).
  • the registered coefficients are delivered to a Kalman filter that provides an estimate of the vocal edge path during the collision over time (400), or tracking.
  • a mass-spring model is used to track the path of the edge during the collision phase.
  • the penetration or overlap values between the edges and the contact section between them are extracted to calculate the impact estimates using the Hertzian model (500).
  • the pre-processing stage (100) of the videos obtained by HSV (1) comprises a correction of the rotation of the endoscopic image by the user through the selection of anterior and posterior end points in the glottis to establish the necessary angle for compensation.
  • a reference image of the sequence during glottal closure is used to visualize these points.
  • the user defines a region of interest (ROI) and a MROI mask centered on the glottis to establish which section of the video will be processed.
  • ROI region of interest
  • MROI mask centered on the glottis to establish which section of the video will be processed.
  • an HSV recording has unwanted low frequency movements, related to the usual manipulation of the endoscope.
  • a motion compensation algorithm is applied previously to the video in case it is necessary to "clean" the low frequency movements present, so the location of the ROI can be considered fixed and does not require updating.
  • attachment points a pair of points in each vocal cord are defined by user input, which are called “attachment points” or attachment points
  • these attachment points (2c, 2d) define where the resting positions of the folds observed in the video are, assuming a straight line between them as the central location of the oscillation of each tissue during phonation. Under this assumption, it happens that these points of attachment (2c, 2d) are considered in close location to the extreme points of the glottis (both anterior and posterior) under conditions of complete glottal closure. However, these points (2c, 2d) may differ from this respective glottal mean line (line formed by the union of the anterior or posterior glottal areas) especially in cases of patients with glottal closure. incomplete.
  • the HSV goes through a sequence of basic image processing operations by the processing unit.
  • Each frame / becomes a grayscale image l g and a morphological reconstruction operation is applied on its inverse to clean the specular reflex generated by the mucosa of the vocal cords.
  • a Prewitt operator is applied to obtain the magnitude and phase of the gradient, GA and G (in degrees) respectively.
  • w and h are respectively the width and height of the ROI. Only the extreme points of the glottis are taken into account. The upper and lower points outside the range defined by the attachment points are omitted. Finally, a temporary filter of moving average is applied in each position X j in order to obtain a smooth variation of the folding movement, reducing the detection error in the local position of the edge.
  • the points (x; y) found in the detection stage (200) are used here to adjust a polynomial of order p by applying the estimator of least squares (LS) on the points detected, along a line (or coordinate axis) defined by the points of attachment (x a ; ya) and (xb; yb).
  • the attachment points are taken into account as fixed roots of the solution, thereby determining restrictions to the problem.
  • M p (y) ayP + byP '1 + cy ?' 2 + dy ? '3 + ⁇
  • attachment points do not define a vertically oriented line, it is previously required to rotate the entire set of detected points to see the problem from the coordinate axis determined by these restrictive points. If the angle of inclination of this line is ⁇ , then the points detected in the new coordinate system can be obtained with the following transformation: (10)
  • values of 0 k tend to show poor adjustment solutions during the tissue collision phases. This is basically because the least squares estimation is not well conditioned when the number of detected points D decreases suddenly, which occurs because of the gradient threshold th in the detection stage. At this point, the values of the record obtained during collision are invalid and do not represent useful information during the impact. With which, they can be considered as a problem of vocal edge occlusion, whose management will be carried out in the next stage of follow-up (400).
  • the occlusion of the vocal cords is considered as a problem of estimation of state variables in the presence of noise and data loss.
  • a Kalman filter is applied to make predictions about the value and speed of change that the coefficients ⁇ should have throughout the contact period.
  • the main mode of vibration in the vocal cords can be represented by a mass-spring configuration, that is, a pair of springs fixed in their respective latching lines (defined in the pre-processing step (100)).
  • the model used to describe the vibratory process of a vocal cord corresponds to:
  • the mass parameter will be considered unitary in this process. It is sought to tune this process to a resonance w r in particular, which allows describing the trajectory of 0 k during the occlusion. Therefore, w r and ⁇ are defined as control parameters for the dynamic response of the process.
  • the parameter ⁇ is only intended to avoid possible unstable solutions and usually low values close to zero are considered (0-0,03). This compensates for possible process instabilities due to the discretization of the same (values of / aitos are prone to generate poles slightly outside the unit circle).
  • the stiffness k is calculated automatically, by estimating the resonance frequency w r , using the kinematic information from the recording stage.
  • the analytical solution of the mass-spring model to initial conditions is considered as the objective function of a minimization problem.
  • the values of 6 i ko and é i ko are considered at the previous instant ko of the impact as initial condition values, so that the analytical solution of the mass-spring model for these conditions coincides with a similar return position, but at the end of the contact in the instant ki.
  • This resonance value w r controls the stiffness k necessary for the process to synchronize a simple harmonic movement over the time evolution of each vocal cord, but it is only intended to complete the sequence during the collision moments.
  • the use of the process for path estimation is not a priority, since there is no occlusion.
  • Kalman considers this uncertainty factor p k as a quantifier of the degree of distrust or loss of kinematic information in observation. This is controlled internally by modifying the gain matrix Jk of the filter, adjusting the weighting of the second term in equation (25) that updates the covariance of the estimation error P k ⁇ k .
  • the output estimate is defined as? k , which is a linear combination between the observations Yk of the state obtained in the recording stage and the predictions made of the state Y k .
  • the filter selects the best set of available coefficients to represent the curve that describes the vocal fold.
  • the first value of the vectors? k (estimated position value of the coefficient 0i, k) is grouped in a vector Q k and then by means of expression (9) the vector of resulting coefficients k is calculated for the final representation of the edge.
  • the apparent penetration 5 k between the tissues and the contact section is extracted at c from the previously estimated trajectory.
  • the difference between left and right polynomials evaluated in their respective k coefficients is used to compute this pair of values as follows:
  • the gain ⁇ is a factor of calibration of the video to convert the spatial dimension of pixels to meters, which will be assumed known.
  • the penetration and degree of contact are finally evaluated in the Hertzian contact equations to obtain the predictions of force and contact pressure suffered by the tissue displayed in an HSV recording to be analyzed, as shown in Figure 9.
  • the force and pressure values are only suggestive since the parameters, T, L, ⁇ and E * used here are not calibrated for this case.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physiology (AREA)
  • Optics & Photonics (AREA)
  • Pulmonology (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Endoscopes (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

La presente invención se relaciona con un método de análisis de fuerza de contacto o CFA para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas. El comprende las etapas de: suministrar al menos video laringoscópico de alta velocidad (denominado High Speed Videoendoscopy o HSV) para generar al menos una imagen y videos de las cuerdas vocales; pre-procesar la imagen en una unidad de procesamiento, para definir una región de interés (ROI) de la ubicación de la glotis; detectar los bordes sobre los pliegues vocales en las imágenes obtenidas por el HSV, en la unidad de procesamiento; registrar los puntos detectados de los bordes mediante una secuencia de imágenes en dicha unidad de procesamiento; estimar la trayectoria del borde vocal durante la colisión a lo largo de tiempo en dicha unidad de procesamiento; y estimar los valores de contacto e impacto de las cuerdas vocales mediante un modelo de contacto.

Description

MÉTODO DE ESTIMACIÓN DE FUERZA Y PRESIÓN DE CONTACTO EN CUERDAS VOCALES A PARTIR DE VIDEOS LARINGOSCÓPICOS DE
ALTA VELOCIDAD
CAMPO DE APLICACIÓN La presente invención se relaciona un método de extracción y análisis de información clínica asociada a la vibración que ocurre en las cuerdas vocales, a partir de exámenes de videoendoscopía laríngea. El método propuesto tiene por objetivo la estimación de fuerza y presión de contacto sufrido por las cuerdas vocales durante los periodos de cierre glotal. ANTECEDENTES
La voz es un fenómeno producido por la acción coordinada entre el aparato respiratorio, la laringe y las cavidades nasal y vocal. Al momento del habla, se suele complementar estas estructuras para generar sonido, mediante la vibración sostenida de las cuerdas vocales, proceso conocido como fonación. El estudio de la voz está estrechamente relacionado con la extracción, estimación y análisis de parámetros médicos relevantes durante estos procesos fonatorios. La evaluación de la función vocal se examina clínicamente considerando componentes aerodinámicas, acústicas y mecánicas involucradas en el proceso del habla en los pacientes, siendo la inspección laringoscópica el examen médico más directo para estudiar la función vocal y sus posibles trastornos.
En la mayoría de los casos, los desórdenes vocales se deben a un mal trato o mala utilización de las cuerdas vocales. Estos abusos son recurrentes cuando se fuerza la voz al hablar, cantar, gritar, toser o bien al exponer la laringe a sustancias irritantes, reflujo o al cigarro. Los trastornos más comunes de las cuerdas vocales son la laringitis, nodulos vocales, pólipos y parálisis vocal. La laringitis es una inflamación de las cuerdas vocales que se percibe como una voz áspera o ronca. Puede ser causada por un excesivo uso de la voz, reflujo, infecciones, o agentes irritantes. Los nodulos vocales son crecimientos benignos sobre las cuerdas vocales producidos por el abuso de la voz, son pequeños y generalmente crecen en pares. Normalmente se forman en áreas donde las cuerdas vocales reciben recurrentemente la mayor parte de la presión al chocar y hacen que la voz se vuelva ronca, baja y entrecortada. Es un problema típico de cantantes, profesores o locutores profesionales. Un pólipo (edema de Reinke o degeneración polipoide) es un crecimiento blando similar a una ampolla que normalmente crece solo sobre una cuerda vocal. Se produce a menudo por el consumo prolongado de tabaco, aunque otras causas pueden ser hipotiroidismo, reflujo o un mal uso continuo de la voz. Los pólipos vocales provocan que la voz sea ronca, baja, y entrecortada. La parálisis en las cuerdas vocales es una pérdida del control motor de la laringe que impide a los pliegues abrir o cerrar apropiadamente, la cual puede ocurrir en una o ambas cuerdas vocales. Una persona puede tener dificultad al tragar y/o toser al sufrir de parálisis.
En particular, el mecanismo implicado en el desarrollo de los nodulos como alteración vocal es principalmente la disfonía. Disfonía es un término que se usa para referirse a alteraciones de la voz cuando ésta difiere hasta el punto de llamar la atención con respecto a otras personas del mismo género, similar edad y grupo cultural, comparando timbre, tono, volumen y flexibilidad de la dicción.
Cuando la alteración es extrema puede llegar a casos de Afonía, que corresponde a la pérdida total de la voz. Existen dos grandes clasificaciones, disfonía funcional u orgánica. La disfonía funcional, también conocida como disfonía por tensión muscular (MTD por sus siglas en inglés) es una alteración de la voz en ausencia de cualquier enfermedad neurológica o estructural de la laringe. Usualmente están asociadas a contracciones excesivas de la musculatura laríngea o bien a defectos en el cierre glótico, presentado una voz hiperfuncional (o también denominada voz fonotraumatica). Este tipo de disfonía se manifiesta externamente por un rápido agotamiento del aire pulmonar, jadeos y contracción muscular excesiva. Si bien muchas alteraciones inicialmente son funcionales, al ser sostenido el abuso vocal a largo plazo, la persistencia del cuadro acaba convirtiéndose en lesiones físicas (desde inflamaciones hasta aparición de pólipos o nodulos) y el problema se transforma en una disfonía orgánica, es decir, que conlleva una alteración anatómica o estructural. Por lo mismo, es común que se refuercen entre si estas alteraciones mediante un comportamiento de causa y efecto, generando ciclos de hiperfonación, aparición de lesiones, refuerzo funcional y agravamiento de la lesión.
La inspección laringoscópica es un examen médico que permite visualizar directamente las cuerdas vocales mediante un tubo (que puede ser rígido o flexible) por el cual se envía una luz y por su configuración óptica permite obtener imágenes del interior de la laringe. Un extremo de este se introduce por vía oral (endoscopio rígido) o bien por vía nasal (endoscopio flexible) y el otro extremo puede ser inspeccionado por el ojo del clínico o bien estar acoplado a una cámara para registrar el examen. Nos referimos a estas grabaciones con el nombre de videoendoscopía laríngea.
Actualmente el uso de instrumentación endoscópica con cámaras convencionales es bastante común en exámenes de laringoscopía. Técnicas estroboscópicas en estos sistemas de adquisición han permitido el estudio de los pliegues vocales durante el ciclo de fonación sin requerir necesariamente altas frecuencias de muestreo, ya que la velocidad de vibración que alcanzan las cuerdas vocales está por sobre la velocidad de cuadros común en grabaciones de video (Entre 150 a 300 [Hz] de frecuencia fundamental de vibración, comparado con los 30 fps de un video convencional).
El principio estroboscópico es básicamente la captura de imágenes con iluminación intermitente a una velocidad de refresco ligeramente desviada (a una fracción) de la frecuencia fundamental de la vibración de las cuerdas, ocasionando un efecto de aliasing que permite reconstruir una secuencia de oscilación aparente de las cuerdas vocales a partir de varios ciclos de oscilación reales. Estos sistemas funcionan bastante bien siempre y cuando los pacientes estudiados mantengan un régimen de fonación sostenido y simétrico. Casos patológicos con vibraciones asimétricas o patrones irregulares presentan un problema para los sistemas de estroboscopía, pues se pierde la representatividad de las oscilaciones. Esta limitante puede ser un problema a la hora de estudiar el cómo se desarrollan las lesiones en el tejido cuando la sincronización del mismo en fonación no es buena.
Sistemas de grabación a alta velocidad para estos exámenes de laringoscopía son un avance tecnológico relativamente reciente y que han permitido la captura mayor cantidad de fenómenos que tienen lugar en la glotis comparados con técnicas estroboscópicas. Estos exámenes proveen mayor resolución temporal, la cual es útil para capturar la cinemática de los pliegues vocales tanto en casos normales como patológicos durante los periodos fonatorios, o también los inicios o ceses del mismo. Estas irregularidades pueden ser ahora observables, pero se establece que muchos de los criterios utilizados por la estroboscopía laríngea no son utilizables en vibraciones anómalas, y que no existe un método de calificación preciso y confiable para estos casos. Análisis que termina solamente basándose en la propia experiencia del examinador. La evaluación de los exámenes laringoscopicos en la práctica es en su gran parte subjetiva, depende directamente de la evaluación del especialista y está sujeta bajo criterios perceptivos en su diagnóstico. Criterios perceptivos comunes son descritos en el estado del arte, donde exploran comparativamente la calidad del diagnóstico entre exámenes de estroboscopía versus glotografía de alta velocidad. En estos experimentos solo se inspecciona los datos visualmente bajo un protocolo de grados y escalas asignadas, como a la calidad del cierre glotal, amplitud del pliegue, calidad de la onda mucosa, tipo de fonación apreciada, etc. Estudios actuales revelan que las evaluaciones realiza das con glotografía de alta velocidad presentaron menos casos no-evaluables y fallos metodológicos menos frecuentes, además de un menor porcentaje de desacuerdo entre evaluadores. Sin embargo, destacan que las evaluaciones perceptuales presentan una amplia variabilidad en el diagnóstico y que resulta necesario métodos objetivos de análisis. Ninguna de estas cantidades fue relacionada directamente con el estrés o grado de abuso sufrido por los pliegues vocales. Un método de representación más objetivo corresponde a una técnica denominada video-quimografía, la cual consiste en la captura de un corte transversal del pliegue vocal en el video, aglomerando las líneas capturadas durante el tiempo una tras de otra, formando una sola imagen denominada quimograma. Con ella es posible evaluar irregularidades de oscilación, interrupciones de tono, retardo al inicio de vibración, asimetrías, etc. El análisis del quimograma es comúnmente visual y toma en cuenta solo una sección transversal de la glotis.
Trabajos recientes que utilicen la quimografía para extraer métricas y realizar análisis cuantitativos se pueden observar en estudios relativamente nuevos. En estos estudios, coeficientes de cierre glótico y métricas de simetría son calculados mediante los resultados quimográficos y comparados con un modelo numérico de producción de voz, estableciéndose que las asimetrías encontradas están relacionadas cambios en la modulación del flujo de aire.
Otra representación del ciclo fonatorio desarrollada es el fonovibrograma, el cual consiste en una técnica de visualización que separa los pliegues vocales y genera un mapa espacio temporal de la deflexión de cada pliegue con respecto a un eje medial. Esta representación presenta facilidades para diferenciar diferentes registros vocales en función de la forma geométrica que la representación adopta para cada caso.
En general, variadas técnicas de extracción de bordes, segmentación y registro glotal son utilizadas actualmente por diversos estudios para extraer parámetros vocales a partir de videos endoscópicos. Ejemplos claros de estos métodos son: parametrización del área glotal, segmentación de bordes glotales, representación de la deflexión de la glotis en otros espacios para cuantificar de asimetrías en la vibración, o inclusive segmentación de pliegues inferior y superior mediante estimación de profundidad. En otros estudios también se analizan los pliegues vocales con técnicas de clasificación, para separar registros vocales de pacientes disfónicos versus no-disfónicos, determinando previamente un set de parámetros glotales (como área glotal, anchura, largo, etc.)
La etiología de patologías orgánicas en los pliegues vocales, tales como nodulos y pólipos, ha estado ampliamente asociada a un incremento en las fuerzas de colisión en las cuerdas vocales. Los daños sufridos por el tejido membranoso se dan en sectores mediales de la glotis durante las fases de contacto en cuadros de fonación extensos y/o inadecuados, por lo que es esperado que la presión de choque sea máxima en estos puntos. A pesar del gran interés existente por evaluar directamente estas colisiones, su cuantificación in vivo ha sido muy difícil y no ha sido incluida en los exámenes clínicos, dado que sólo unos pocos estudios han sido capaces de reunir datos sobre la presión de contacto directamente en personas. Es por esto que otros enfoques han sido considerados para investigar la colisión, con el objetivo de entender su relación con el desarrollo de lesiones. En estos enfoques se incluyen simulaciones numéricas, mediciones sobre laringes extirpadas de animales, y replicas físicas de cuerdas vocales hechas de silicona.
Mediciones directas in vivo de la fuerza de contacto con sondas y configuración experimental sobre cuerdas vocales de humanos se han hecho exitosamente. Las magnitudes de contacto obtenidas entraron en un rango de 13 a 210 [mN] y fue encontrada una gran correlación entre peak de fuerza de contacto e intensidad de la voz. Aunque la sonda muestra capacidades de adaptación para ser utilizada en seres humanos (con una alta resolución temporal y bajo nivel de ruido) las mediciones son sensibles a la colocación del sensor y la técnica es básicamente invasiva. Datos de presión de contacto in vivo se reunieron también en un estudio previo, donde la colisión en el punto medio de la cuerda vocal se reportó desde los 0.5 a 3.0 [kPa]. Debido a limitaciones experimentales, sólo 7 de los 20 sujetos fueron analizables. Otra investigación similar mostró que las presiones de contacto intraglotal en 20 pacientes estuvieron en el rango de 1 a 4 [kPa], y que los valores más grandes se encontraron en sujetos con lesiones cerca de la colocación de la sonda. En todos estos exámenes se requirió anestesia tópica sobre el tejido antes de la inserción de la sonda.
La presión intraglotal ha sido también medida directamente sobre laringes extirpadas de caninos. En este caso, se ha observado que los instantes de impacto de las cuerdas vocales producen pulsos agudos de presión de contacto, los cuales están positivamente relacionados con la presión subglótica inducida, la elongación máxima del que el tejido alcanza y la aducción de las cuerdas vocales (debido a la postura y activación muscular de la laringe).
Enfoques numéricos con modelos de elementos finitos (FEM) se han utilizado para evaluar el papel de las fuerzas de colisión como factor de riesgo en el desarrollo de lesiones benignas. El estudio encontró que las fuerzas elásticas dentro del tejido vocal dominan la mecánica de cierre en la cuerda vocal y que existe una relación entre la presión subglótica y la fuerza máxima de colisión, como se ha señalado antes en mediciones experimentales. Estudios sugieren que el rebote de colisión no es suficiente para causar la abertura glotal y que las fuerzas aerodinámicas dominan la separación de las cuerdas después de del impacto. Además, las fuerzas mecánicas conducen cierre glotal y son responsables de la magnitud del impacto.
Réplicas físicas también se han utilizado para estudiar la colisión de pliegues vocales. En este caso, las fuerzas de colisión se obtienen utilizando el modelo de impacto de Hertz. Sistemas estroboscópicos y cámaras de alta velocidad son usadas para registrar la superficie de la réplica mientras que se somete a una fonación forzada, y el método Digital Image Correlation (DIC) se aplica para cuantificar la distribución de la tensión en la superficie superior. La estimación Hertziana requiere de este análisis de tensión para calcular sus predicciones, en función de un parámetro de profundidad o penetración que se obtiene a través de una extrapolación sobre los valores de deformación (strain) obtenidos por el método.
DIC se muestra como un potencial estimador indirecto del estrés de colisión, pe- ro puede estar sesgado, porque el daño del tejido vocal debido al impacto ocurre al interior del tejido y no en la superficie superior, donde las variaciones de la deformación son calculadas. Por lo tanto, este enfoque es susceptible a sobreestimar las fuerzas de colisión. Además, DIC requeriría una manera segura de generar un patrón de pequeños puntos sobre el tejido vocal para aplicar este método in vivo a algún paciente, lo que aún no está resuelto.
Uno de los puntos importantes a destacar es que estos métodos descritos no son muy adecuados para ser aplicados a condiciones clínicas. Las mediciones directas son básicamente invasivas y medidas indirectas usando DIC aún requieren la intervención del tejido con marcas visibles en la superficie, lo cual tiende a ser complicado cuando se consideran sujetos humanos vivos. Sin embargo, es reportado en estos estudios que el modelo Hertziano de contacto muestra ser útil para estimar esfuerzos de colisión. Usar este modelo tiene la ventaja por sobre métodos de medición directa, pues evita el intervenir la glotis del paciente. El problema es que necesita un parámetro de penetración, obtenido con DIC para funcionar, y que además, no se tiene una manera de dibujar un patrón de puntos sobre el tejido en condiciones clínicas habituales. Por tanto, potenciales métodos que permitan obtener este parámetro, evitando el cálculo del mapa de deformación del tejido, son deseables en post de llevar el modelo de Hertz al contexto clínico.
El estudio de la producción de la voz requiere acercamientos multidisciplinarios para entender el proceso de fonación. Esto involucra interacciones tanto mecánicas, acústicas y aerodinámicas entre el tejido y el flujo de aire. Obtener datos clínicos relacionados a estas componentes es muy importante para establecer una buena evaluación de la función vocal.
Varias métricas acústicas son comúnmente utilizadas para la evaluación de la voz, como intensidad sonora (Sound Level Pressure, SPL), frecuencia fundamental, jitter (variación porcentual de la frecuencia fundamental), shimmer (variación porcentual de la intensidad sonora), relación armónico-ruido (Harmonic-to-noise ratio, H/N), etc. Estos parámetros son obtenidos a partir de las grabaciones de audio, y por tanto son los más sencillos de calcular. Sin embargo varios de estos parámetros acústicos son poco concluyentes a la hora de evaluar el origen de una alteración vocal por si solos, ya que la desviación de estos mismos puede deberse a varios factores.
Las métricas aerodinámicas son algo más difíciles de extraer directamente, pero existen técnicas para determinar sus valores a partir del flujo y presión oral, mediante una máscara de Rothenmberg. Ejercicios vocales preestablecidos son solicitados al paciente para ser grabados con un sistema de adquisición y luego ser procesados. A partir de estos datos se estiman presión subglotal, tiempo máximo de fonación (Máximum Phonation Time, MPT), flujo de aire glotal, máxima tasa de declinación del flujo (Máximum Flow Declination Rate, MFDR), componente continua del flujo de aire (DC Flow), etc. Estudios han establecido correlaciones de algunos de estos valores con parámetros acísticos, reportándose diferencias significativas entre pacientes.
Sin embargo, métricas mecánicas con respecto al contacto físico entre los tejidos vocales son las más complejas de obtener y requieren la inspección directa de las cuerdas vocales, o incluso intervenciones relativamente invasivas con sensores de fuerza o presión son necesarias para una respectiva evaluación. No existe un parámetro clínico normativo para determinar el comportamiento del impacto del tejido vocal, pero se ha sugerido una hipótesis con respecto al rol del contacto de las cuerdas vocales en la generación de patologías y lesiones orgánicas asociadas al abuso vocal sostenido, la cual aún no ha sido clínicamente estudiada ni validada a largo plazo en sujetos humanos.
El procedimiento clínico más directo para evaluar la producción de voz en un paciente es una endoscopía laríngea. Recientemente, la incorporación de nueva tecnología en la instrumentación médica ha permitido dotar a los exámenes de laringoscopia con capacidad de adquisición en video, permitiendo la observación de una variedad de fenómenos vibratorios que tienen lugar dentro de la laringe. Existen dos tipos de sistemas de adquisición utilizados en estos exámenes: sistemas estroboscópicos y sistemas de alta velocidad de adquisición. Estos avances han traído el potencial de proveer información nueva acerca de los patrones vibratorios, tanto en casos normales como patológicos, donde es usual que los tonos sean inestables y presenten movimientos vibratorios irregulares. Fenómenos particularmente interesantes en el estudio visual de las cuerdas vocales son el perfil del choque de las cuerdas vocales y las ondas de propagación sobre el tejido mucoso durante cada ciclo.
Encontrar métodos objetivos que mejoren los análisis clínicos de estos exámenes es crítico en este punto, pues al obtener información detallada sobre la cinemática de las cuerdas vocales permite el estudio del comportamiento mecánico de las mismas.
Soluciones de este tipo han sido planteadas por el estado del arte. Por ejemplo, el documento US2005219376, describe un dispositivo de grabación de imágenes, preferiblemente un dispositivo de colores de impresión de imágenes con modos de grabación para exámenes de cuerdas vocales. En una modalidad de la invención, el documento describe que el dispositivo de grabación comprende un endoscopio para el mapeo de las cuerdas vocales.
Otra solución similar es la que divulga el documento US2008300867. Este documento se refiere a un método para obtener una medida cuantitativa de la voz que comprende la utilización una grabación seleccionada a partir de tipos de registro que comprende un registro de imágenes de laringe y de una grabación acústica. En una de las modalidades de la invención, el comportamiento de las cuerdas vocales es medida mediante video endoscopio de alta velocidad (HSV).
El documento WO2014148712 se relaciona con un sistema de videoquimografia para analizar el estado de movimiento de la mucosa de las cuerdas vocales. El sistema comprende: un laringoscopio para la observación de las cuerdas vocales; una fuente de luz para iluminar las cuerdas vocales; una cámara de vídeo para grabar y almacenar imágenes observadas a través del laringoscopio; un computador que incorpora una unidad de captura de imagen para la conversión de una señal de vídeo transmitida desde la cámara de vídeo en una señal de imagen digital, una unidad de almacenamiento para almacenar la señal de imagen digital, una unidad de control para el análisis de la señal de imagen de la unidad de almacenamiento y la visualización de los resultados del análisis en un monitor, y un software de análisis para el análisis de la señal de imagen de la unidad de almacenamiento; y un monitor que es para la visualización de un análisis de los resultados de imagen y capturado.
PROBLEMA TÉCNICO
El potencial de la videolaringoscopía no se ha aprovechado para estudiar el proceso de desarrollo de lesiones en las cuerdas vocales, a pesar de existir información visual relevante en estos exámenes. Típicamente, los casos de mayor ocurrencia e interés son lesiones orgánicas fonotraumáticas como nodulos o pólipos, de los cuales es importante determinar tempranamente factores de riesgo y posible desarrollo de estas lesiones en la clínica. Se presume que el principal problema con estos videos es extraer información objetiva del potencial daño sufrido por el tejido en escenarios de esfuerzo vocal indebido. Usualmente este comportamiento es observado bajo un examen endoscópico donde se efectúan algunos ejercicios vocales propuestos por un doctor especialista o fonoaudiólogo, para luego realizar una observación subjetiva de estos fenómenos, estableciendo posibles grados de abuso y/o mala técnica vocal mediante la apreciación visual del cierre glótico, periodicidad y asimetrías en fase y amplitud. Si bien el seguimiento del paciente puede ser efectivo, indicios tempranos del desarrollo de un problema o lesión son difíciles de identificar bajo este marco, y en general requieren de la pericia del examinador para determinar tales grados. El principal desafío con estas grabaciones es evaluar la información vibratoria observada para realizar un diagnóstico clínico temprano más preciso. Comúnmente, esta evaluación está sujeta a subjetividad del especialista, basándose en protocolos, escalas o criterios únicamente perceptivos. También cabe mencionar que en ocasiones el objetivo del examen es solo de inspección, pues es realizado cuando el paciente ya ha generado el cuadro patológico y es usado más como evidencia directa de un problema no controlado a tiempo. Bajo este punto de vista, el principal problema en cuestión es la falta de criterios objetivos para la evaluación del abuso vocal registrado en endoscopias laríngeas, lo que potencialmente podría dar pistas acerca de algún problema o patología vocal a futuro. Pero, sigue estando el problema el cómo medir cuantitativamente el esfuerzo sufrido por el tejido a partir de una videolaringoscopía, y si a partir de estos datos se puede obtener un conocimiento más acertado sobre la condición de los pliegues vocales en un paciente. SOLUCIÓN TÉCNICA
Para solucionar estas problemáticas, se propone un método para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas. Se cree que la penetración aparente y el área de contacto pueden ser aproximadamente obtenidas utilizando solamente la información cinemática observada en estas grabaciones, lo que permitiría luego la predicción de la fuerza y presión de colisión mediante el modelo de Hertz.
La presente invención comprende además un método para el procesamiento de video que permita realizar esta tarea. Este método permite complementar el estudio clínico de la disfonía fonotraumática con información objetiva y que estas estimaciones indirectas sean lo suficientemente simples para ser aplicadas en contextos donde esté disponible la examinación videoendoscópica.
BREVE DESCRIPCIÓN DE LAS FIGURAS
La Figura 1 corresponde a un diagrama de bloques con las etapas del método de análisis de fuerza de contacto, de acuerdo a una modalidad de la invención.
La Figura 2 corresponde a una imagen de una cuerda vocal con sus respectivos bordes y puntos de enganche predefinidos, de acuerdo a una modalidad de la invención.
La Figura 3 corresponde a una imagen de una cuerda vocal en la etapa de detección de bordes vocales, de acuerdo a una modalidad de la invención.
La Figura 4 corresponde a una representación temporal de la etapa de detección, de acuerdo a una modalidad de la invención.
La Figura 5 corresponde a una imagen de la etapa de registro de las cuerdas vocales, de acuerdo a una modalidad de la invención.
La Figura 6 corresponde a una representación temporal de la etapa de registro, de acuerdo a una modalidad de la invención.
La Figura 7 corresponde a una estimación de coeficientes durante el contacto en la etapa de seguimiento, de acuerdo a una modalidad de la invención.
La Figura 8 corresponde a una representación temporal de la etapa de seguimiento, de acuerdo a una modalidad de la invención. La Figura 9 corresponde a la etapa de estimación del contacto en las cuerdas vocales, de acuerdo a una modalidad de la invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
La presente invención se relaciona con un método de análisis de fuerza de contacto o CFA (Collision Forcé Analysis por sus siglas en ingles). Dicho método comprende al menos 5 etapas, tal como se muestran en la Figura 1
En primer lugar, al menos un video laringoscópico de alta velocidad (1 ) (denominado High Speed Videoendoscopy o HSV) se presenta como entrada al método, para generar al menos una imagen y videos de cuerdas vocales (2). Posterior a esto, las imágnes y videos son enviadas a una unidad de procesamiento (no mostrada en las figuras), en donde se aplica una etapa de pre-procesamiento (100) para corregir la orientación de la glotis, definiendo una región de interés (ROI) en su ubicación. Luego, se realiza una detección de bordes (200) sobre los pliegues vocales, la cual es procesada mediante una secuencia de operadores (300) que analizan la información de gradiente en la imagen. La ubicación de cada borde (2a, 2b) de la cuerda vocal (derecho e izquierdo) es segmentada y se aplica un ajuste polinómico para registrar el set de puntos encontrados para cada borde (2a, 2b). Los coeficientes registrados se entregan a un filtro de Kalman que proporciona una estimación de la trayectoria del borde vocal durante la colisión a lo largo de tiempo (400), o seguimiento. Un modelo de masa-resorte se utiliza para realizar el seguimiento de la trayectoria del borde durante la fase de colisión. Por último, los valores de penetración o solapamiento entre los bordes y la sección de contacto entre ellos se extraen para calcular las estimaciones de impacto mediante el modelo Hertziano (500). Durante la etapa de pre-procesamiento (100) de los videos obtenidos mediante HSV (1 ), comprende una corrección de la rotación de la imagen endoscópica por el usuario mediante la selección de puntos extremos anterior y posterior en la glotis para establecer el ángulo necesario para la compensación. Una imagen de referencia de la secuencia durante cierre glótico se utiliza para visualizar estos puntos. Luego, el usuario define una región de interés (ROI) y una máscara MROI centrada en la glotis para establecer que sección del video se procesará. Comúnmente, una grabación HSV tiene movimientos de baja frecuencia indeseados, relacionados con la manipulación habitual del endoscopio. Un algoritmo de compensación del movimiento es aplicado previamente al video en caso de que fuera necesario "limpiar" los movimientos de baja frecuencia presentes, por lo que la ubicación de la ROI se puede considerar fija y no requiere actualización.
Adicionalmente, un par de puntos en cada cuerda vocal son definidos por entrada de usuario, los cuales se denominan "puntos de enganche" o attachment points
(2c, 2d), los cuales son referenciados como (xa; ya) y (xt>; yt>). Como se puede observar en la Figura 2, estos puntos de enganche (2c, 2d) definen dónde se encuentran las posiciones de reposo de los pliegues observados en el video, asumiendo una línea recta entre ellos como la ubicación central de la oscilación de cada tejido durante la fonación. Bajo esta suposición, ocurre que estos puntos de enganche (2c, 2d) se consideran en cercana ubicación a los puntos extremos de la glotis (tanto anterior como posterior) en condiciones de cierre glotal completo. Sin embargo, estos puntos (2c, 2d) pueden diferir de esta línea media glotal respectiva (línea conformada por la unión de los entremos anterior o posterior del área glotal) especialmente en casos de pacientes con cierre glotal incompleto. Cuando el contacto entre tejidos es parcial, aparece una apertura en la parte posterior de la glotis, lo que induce a una ubicación más distante de estos puntos de enganche superiores por parte del usuario. Para CFA, los puntos de enganche son necesarios para "sujetar" una curva que representa del borde vocal. Son restricciones para un problema de ajuste polinomico usado para representar cada pliegue.
En la etapa de detección (200), el HSV pasa por una secuencia de las operaciones básicas de procesamiento de imágenes mediante la unidad de procesamiento. Cada frame / se convierte en una imagen de escala de grises lg y una operación morfológica de reconstrucción se aplica sobre su inversa para limpiar el reflejo especular generado por la mucosa de las cuerdas vocales. A continuación, un operador de Prewitt es aplicado para obtener la magnitud y fase del gradiente, GA y G (en grados) respectivamente. GA es enmascarado con MROI obtenida en la etapa anterior (G = GA - MR0I) y es usado para segmentar los bordes, separando G en dos imágenes de gradiente de la siguiente forma:
Figure imgf000020_0001
Figure imgf000020_0002
donde th es un parámetro de umbral. A partir de estas imágenes gradiente Gright y Gieft, se calcula la ubicación del borde en el eje para cada línea horizontal de la ROI, conformando pares (x; y) de puntos situados en el centroide del gradiente encontrado:
Figure imgf000021_0001
Vj E [l, h], s E [left, right] . Donde w y h son respectivamente el ancho y el alto de la ROI. Se toman en cuenta sólo hasta los puntos extremos de glotis. Los puntos superior e inferior fuera del rango definido por los puntos de enganche se omiten. Finalmente, un filtro temporal de media móvil se aplica en cada posición Xj con el fin de obtener una variación suave del movimiento de pliegue, reduciendo el error de detección en la posición local del borde.
Figure imgf000021_0002
vk E [l,Nframes], donde N = 5. En la Figura 3 se muestra un ejemplo de esta etapa de detección aplicada sobre una grabación HSV a modo de ejemplo y en la Figura 4 se aprecia una representación temporal de la porción medial de la glotis con un quimograma. Como se puede observar, la información del gradiente es usada para encontrar los bordes vocales izquierdo y derecho, pero los puntos detectados se pierden cuando los pliegues colisionan (instante C en la secuencia temporal de la Figura 4). El suavizado realizado por el filtro temporal reduce el error de detección durante la fase de apertura y cierre glotal, pero cuando comienza a ocurrir el impacto, el gradiente no supera el umbral th establecido y la ubicación del borde se pierde. La tarea de las siguientes etapas será establecer un framework que permita estimar la proyección de estos bordes durante los instantes de impacto.
En la etapa de registro (300), la cual se lleva a cabo en la unidad de procesamiento, los puntos (x; y) encontrados en la etapa de detección (200) se utilizan aquí para ajustar un polinomio de orden p aplicando el estimador de mínimos cuadrados (LS) sobre los puntos detectados, a lo largo de una línea (o eje coordenado) definida por los puntos de enganche (xa; ya) y (xb; yb). Los puntos de enganche se toman en cuenta como raíces fijas de la solución, determinando con ello restricciones al problema. El polinomio M a ajustar cuando la línea de enganche es vertical {x0 = xa = xb) se define como:
Mp(y) = ayP + byP'1 + cy?'2 + dy?'3 + ···
(7)
= (2._0 ^y¿) (y - V ) y - b) + o donde los coeficientes del polinomio M escritos en forma general son:
Φ = (a b c d ... )T (8)
El valor de estos coeficientes está restringido por las raíces ya y ¾ al factorizar estas restricciones en M, se pueden despejar los parámetros desconocidos de la curva a ajustar, definiéndose este conjunto como:
Φ = θ Θ (i - ya + yb) yayb T (9)
Si los puntos de enganche no definen una línea verticalmente orientada, se requiere previamente rotar todo el set de puntos detectados para ver el problema desde el eje coordenado determinado por estos puntos restrictivos. Si el ángulo de inclinación de esta línea es φ, entonces los puntos detectados en el nuevo sistema de coordenadas se pueden obtener con la siguiente transformación:
Figure imgf000023_0001
(10)
Y la curva M a ajustar se reescribe como:
'p-2
1 θ(νι O - va)(v - vb) u0 (11)
¿=0
Con esto, la solución LS usada para computar los parámetros Θ en la ecuación 1 1 corresponde a:
Θ = (AT A)~1ATU (12)
Figure imgf000023_0002
ui— ul ~ U0 Üt = (Vj - va (vt - vb) V I E [1, D] donde los pares (ui; v¡) son los puntos obtenidos en la etapa de detección con la ecuación (6) y transformados previamente con la ecuación (1 0), y D es el número de puntos encontrados en la etapa de detección. Esta regresión se aplica para cada set de puntos de las cuerdas vocales tanto izquierda como derecha, y luego de aplicado la ecuación 12, se registran sus valores 6k a lo largo de la secuencia del video.
En esta etapa también se estima la rapidez de cambio de los coeficientes (<¾):
(14) Tanto el valor o ubicación de los coeficientes 0k como sus respectivas velocidades Ók son los registros de entrada a la etapa de seguimiento que sigue. Estos valores son considerados como observaciones de un proceso que describe el modo de oscilación dominante de los pliegues vocales. El proceso de registro se puede observar en las Figuras 5 y 6.
Como se puede apreciar en la Figura 6, los valores de 0k tienden a mostrar malas soluciones de ajuste durante las fases de colisión del tejido. Esto es básicamente debido a que la estimación de mínimos cuadrados no está bien condicionada cuando la cantidad de puntos detectados D disminuye súbitamente, lo cual ocurre por el alcance del umbral de gradiente th en la etapa de detección. En este punto, los valores del registro obtenidos durante colisión son inválidos y no representan información útil durante el impacto. Con lo cual, pueden ser considerados como un problema de oclusión del borde vocal, cuyo manejo se realizará en la siguiente etapa de seguimiento (400).
En la etapa de seguimiento (400) la oclusión de las cuerdas vocales es considerada como un problema de estimación de variables de estado en presencia de ruido y pérdida de datos. Aquí un filtro de Kalman es aplicado para realizar predicciones sobre el valor y rapidez de cambio que los coeficientes Θ deberían tener a lo largo del periodo de contacto. Para describir estos periodos de oclusión con un proceso lineal, se asume que el modo principal de vibración en las cuerdas vocales puede ser representado mediante una configuración de masa-resorte, esto es, un par de resortes fijados en sus respectivas líneas de enganche (definidas en la etapa de pre procesamiento (100)). Bajo esta suposición, el modelo utilizado para describir el proceso vibratorio de una cuerda vocal corresponde a:
X k+1 = AX k + Vk (15)
Yi,k = CX k + Ek (16)
Figure imgf000025_0001
donde Xiik es el estado particular del coeficiente 0¿ en Qk en el instante k, Yi k son observaciones del estado del proceso, las cuales asumimos disponibles con la matriz C como identidad. Vk y Ek son el ruido de proceso y ruido de medición, considerados gaussianos y no-correlacionados con varianzas σν y oe respectivamente. Δΐ = 1/fs es el tiempo de muestreo, k la rigidez del resorte, y b el valor de amortiguamiento del proceso. La "masa" del coeficiente no está presente, pues el interés radica en representar la cinemática del borde vocal y este solo se traduce en un factor de escala para la solución. Por tanto, el parámetro de masa se considerará unitario en este proceso. Se busca sintonizar este proceso a una resonancia wr en particular, que permita describir la trayectoria de 0k durante la oclusión. Por tanto, se define wry ξ como parámetros de control para la respuesta dinámica del proceso.
2
k = -^— b = 2ξ^/Έ (17)
1 - ξ2
El parámetro ξ está pensado solo para evitar posibles soluciones inestables y usualmente se consideran valores bajos cercanos a cero (0-0,03). Esto compensa posibles inestabilidades del proceso debidas a la discretización del mismo (valores de / aitos son propensos a generar polos ligeramente fuera del circulo unitario). La rigidez k es calculada automáticamente, mediante la estimación de la frecuencia de resonancia wr, utilizando la información cinemática proveniente de la etapa de registro.
Para establecer el valor de resonancia, se considera la solución analítica del modelo masa-resorte a condiciones iniciales como función objetivo de un problema de minimización. Se consideran los valores de 6i ko y éi ko al instante previo ko del impacto como valores de condición inicial, de manera que la solución analítica del modelo masa-resorte para estas condiciones coincide con una posición de regreso similar, pero al término del contacto en el instante ki. Con ello, interesa determinar un valor de wr ia\ que satisfaga lo siguiente:
Figure imgf000026_0001
¾(w) = θίιί1ο cos(wtk + -^sin( wtfci) (19) donde tki = (/ - k0) At. Como se puede ver en la Figura 7, la solución de la ecuación 18 no es necesariamente única y el método de resolución del mismo puede caer en mínimos locales. Sin embargo, se espera que la frecuencia de resonancia buscada se mantenga cercana a la frecuencia fundamental que el paciente ejecuta durante la grabación. En una modalidad preferida de la invención, el método de resolución utilizado es un Nelder-Mead estándar y su condición de inicio es fijada a una frecuencia fundamental esperable de oscilación del orden de 200 [Hz].
Este valor de resonancia wr controla la rigidez k necesaria para que el proceso sincronice un movimiento armónico simple sobre la evolución temporal de cada cuerda vocal, pero solo está pensada para completar la secuencia durante los instantes de colisión. Cuando los bordes vocales son visibles no es prioritario el uso del proceso para la estimación de la trayectoria, pues no existe oclusión. Para definir cuando las predicciones del proceso serán requeridas, se definen las siguientes cantidades:
(20)
-β&κ-γ) las cuales se denominan respectivamente como la razón de puntos no detectados λκ y su factor de incerteza pk asociado. DT representa la máxima cantidad posible de puntos detectados en el borde, Dk la cantidad actual de puntos detectados, β un factor de ganancia, y y un umbral de incerteza. El factor de incerteza determina que tanta "desconfianza" se tiene en los valores registrados de Qk. Cuando ^ es muy pequeño, por ejemplo, λκ se incrementa por sobre el umbral de incerteza y pk tiende a la unidad, lo cual significa que existen muchos puntos perdidos en la etapa de detección y el ajuste del polinomio en la etapa de registro es malo. Este indicador establece que las estimaciones del filtro de Kalman son necesarias en tal circunstancia y requieren mayor prioridad. Las ecuaciones siguientes describen la implementación del filtro de Kalman desarrollada (se omiten índices de los coeficientes /' por simplicidad):
%k+i\k = AXk\k (21)
Figure imgf000027_0001
Figure imgf000028_0001
Yk— (26)
Kalman considera este factor de incerteza pk como cuantificador del grado de desconfianza o pérdida de la información cinemática en la observación. Esto se controla internamente modificando la matriz de ganancia Jk del filtro, ajustando la ponderación del segundo término en la ecuación (25) que actualiza la covarianza del error de estimación Pk\k.
La estimación de salida está definida como ?k, la cual es una combinación lineal entre las observaciones Yk del estado obtenidas en la etapa de registro y las predicciones realizadas del estado Yk.
Yk = {l - Pk)Yk + PkYk (27)
Se debe notar que mediante el control de factor pk, el filtro selecciona el mejor set de coeficientes disponibles para representar la curva que describe el pliegue vocal. Finalmente, el primer valor de los vectores ?k (valor estimado de posición del coeficiente 0¡,k) se agrupa en un vector Qk y luego mediante la expresión (9) se calcula el vector de coeficientes k resultantes para la representación final del borde.
En el ejemplo ilustrado en la Figura 7 se puede observar la respuesta del filtro frente a los cambios de incerteza en la variación de los coeficientes registrados. El filtro maneja la pérdida de puntos detectados incrementando pk y conmuta a las predicciones internas de estos valores si son necesarias. Se toman en cuenta la última posición y velocidad alcanzada por el borde al momento previo del impacto para estimar previamente el parámetro k del proceso. Durante la colisión, el filtro de Kalman continúa la secuencia con las predicciones, obviando los valores de coeficientes mal condicionados. Cuando la colisión finaliza y la oclusión del pliegue vocal ya no es un problema, la estimación retorna a los bordes detectados previamente en la etapa anterior. Esto permite la representación completa de todo el ciclo, lo cual es posible de observar en la Figura 8. Al completar suavemente la evolución temporal de la vibración para cada cuerda vocal, sin considerar la deformación de la misma al momento de impactar, la penetración aparente 5k entre las cuerdas solapadas es ahora visible y puede utilizarse para estimar la colisión del tejido.
En la etapa de estimación del contacto (500), llevada a cabo en la unidad de procesamiento, se extraen la penetración aparente 5k entre los tejidos y sección de contacto ac a partir de trayectoria previamente estimada. La diferencia entre polinomios izquierdo y derecho evaluados en sus coeficientes k respectivos se utiliza para computar este par de valores de la siguiente manera:
Δ = Mp( ; ¾e t) - Mp( ; Yk ight) (28) δ = η · máx{Axj k, Vj} (29)
ak = v Vj {AXjik > 0} (30)
La ganancia η es un factor de calibración del video para convertir la dimensión espacial de pixeles a metros, la cual se asumirá conocida. La penetración y grado de contacto finalmente son evaluadas en las ecuaciones de contacto Hertziano para obtener las predicciones de fuerza y presión de contacto sufridas por el tejido visualizado en una grabación HSV a analizar, tal como se muestra en la Figura 9. En este ejemplo, los valores de fuerza y presión son solo sugerentes ya que los parámetros, T, L, η y E* usados aquí no están calibrados para este caso.

Claims

REIVINDICACIONES
1 . Un método de análisis de fuerza de contacto o CFA para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas, CARACTERIZADO porque comprende las etapas de:
a. suministrar al menos video laringoscópico de alta velocidad (denominado High Speed Videoendoscopy o HSV) para generar al menos una imagen y videos de las cuerdas vocales; b. pre-procesar la imagen en una unidad de procesamiento, para definir una región de interés (ROI) de la ubicación de la glotis; c. detectar los bordes sobre los pliegues vocales en las imágenes obtenidas por el HSV, en dicha unidad de procesamiento;
d. registrar los puntos detectados de los bordes mediante una secuencia de imágenes en dicha unidad de procesamiento;
e. estimar la trayectoria del borde vocal durante la colisión a lo largo de tiempo en dicha unidad de procesamiento; y
f. estimar los valores de contacto e impacto de las cuerdas vocales mediante un modelo de contacto.
2. El método según la reivindicación 1 , CARCTERIZADO porque en la etapa de registro de bordes, la ubicación de cada borde de la cuerda vocal es segmentada y se aplica un ajuste polinómico para registrar el set de puntos encontrados para cada borde.
3. EL método según la reivindicación 1 , CARACTERIZADO porque para detectar la trayectoria de acuerdo a los puntos detectados de los bordes se utiliza un filtro de Kalman.
4. El método según la reivindicación 1 , CARACTERIZADO porque el modelo de contacto es un modelo Hertziando utilizado para calcular estimaciones de impacto a partir de valores de penetración o solapamiento entre los bordes.
5. El método según la reivindicación 1 , CARACTERIZADO porque la etapa de pre-procesamiento comprende una corrección de la rotación de la imagen endoscópica mediante la selección de puntos extremos anterior y posterior en la glotis para establecer el ángulo necesario para la compensación.
6. El método según la reivindicación 5, CARACTERIZADO porque en la etapa de pre-procesamientos e definen al menos un par de puntos de enganche, los cuales definen dónde se encuentran las posiciones de reposo de los pliegues observados en el video.
7. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de detección se determina los bordes vocales izquierdo y derecho a partir de imágenes gradientes de las cuerdas vocales.
8. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de registro los puntos encontrados en la etapa de detección se utilizan para ajustar un polinomio de orden p aplicando un estimador de mínimos cuadrados (LS) sobre los puntos detectados.
9. El método según la reivindicación 3, CARACTERIZADO porque el filtro de Kalman es aplicado para realizar predicciones sobre el valor y rapidez de cambio que las posiciones deberían tener a lo largo del periodo de contacto.
10. El método según la reivindicación 9, CARACTERIZADO porque el modo principal de vibración en las cuerdas vocales puede ser representado mediante una configuración de masa-resorte.
1 1 . El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de estimación del contacto, se extraen la penetración aparente entre los tejidos y sección de contacto a partir de trayectoria previamente estimada.
12. El método según la reivindicación 12, CARACTERIZADO en la etapa de estimación de contacto, la penetración y grado de contacto son evaluadas en las ecuaciones de contacto Hertziano para obtener las predicciones de fuerza y presión de contacto sufridas por el tejido visualizado en una grabación HSV a analizar.
PCT/CL2016/050037 2016-07-14 2016-07-14 Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad WO2018010036A1 (es)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/CL2016/050037 WO2018010036A1 (es) 2016-07-14 2016-07-14 Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad
EP16908372.2A EP3489857A4 (en) 2016-07-14 2016-07-14 METHOD FOR ESTIMATING CONTACT FORCE AND PRESSURE ON VOICE ROPES FROM HIGH SPEED VIDEO LARYNGOSCOPY
ARP170101968A AR109057A1 (es) 2016-07-14 2017-07-14 Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad
US16/247,099 US10783630B2 (en) 2016-07-14 2019-01-14 Method for estimating force and pressure of collision in vocal cords from high-speed laryngeal videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CL2016/050037 WO2018010036A1 (es) 2016-07-14 2016-07-14 Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/247,099 Continuation-In-Part US10783630B2 (en) 2016-07-14 2019-01-14 Method for estimating force and pressure of collision in vocal cords from high-speed laryngeal videos

Publications (1)

Publication Number Publication Date
WO2018010036A1 true WO2018010036A1 (es) 2018-01-18

Family

ID=60952233

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CL2016/050037 WO2018010036A1 (es) 2016-07-14 2016-07-14 Método de estimación de fuerza y presión de contacto en cuerdas vocales a partir de videos laringoscópicos de alta velocidad

Country Status (4)

Country Link
US (1) US10783630B2 (es)
EP (1) EP3489857A4 (es)
AR (1) AR109057A1 (es)
WO (1) WO2018010036A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11291358B2 (en) * 2019-06-20 2022-04-05 Cilag Gmbh International Fluorescence videostroboscopy of vocal cords
TWI727432B (zh) * 2019-09-24 2021-05-11 驊訊電子企業股份有限公司 以串流媒體為基礎的歌唱評分方法和歌唱評分系統
CN111260625B (zh) * 2020-01-15 2021-06-18 征图新视(江苏)科技股份有限公司 胶印大张图像检测区域的自动提取方法
CN112562650A (zh) * 2020-10-31 2021-03-26 苏州大学 一种基于声带特征参数的语音识别分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110299748A1 (en) * 2005-02-15 2011-12-08 Olympus Corporation Medical image processing apparatus, luminal image processing apparatus, luminal image processing method, and programs for the same
JP4902735B2 (ja) * 2007-04-24 2012-03-21 オリンパスメディカルシステムズ株式会社 医療用画像処理装置及び医療用画像処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3925616A (en) * 1974-04-30 1975-12-09 Bell Telephone Labor Inc Apparatus for determining the glottal waveform
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20080300867A1 (en) * 2007-06-03 2008-12-04 Yan Yuling System and method of analyzing voice via visual and acoustic data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110299748A1 (en) * 2005-02-15 2011-12-08 Olympus Corporation Medical image processing apparatus, luminal image processing apparatus, luminal image processing method, and programs for the same
JP4902735B2 (ja) * 2007-04-24 2012-03-21 オリンパスメディカルシステムズ株式会社 医療用画像処理装置及び医療用画像処理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDRADE-MIRANDA, G. ET AL.: "Glottal Gap Tracking Using Temporal Intensity Variation and Active Contours", MODELS AND ANALYSIS OF VOCAL EMISSIONS FOR BIOMEDICAL APPLICATIONS: 8TH INTERNATIONAL WORKSHOP, 2013, Florencia, Italia, pages 77 - 80, XP055457176, ISBN: 978-88-6655-470-7 *
GUNTER, H.E.: "Mechanical Stresses in Vocal Fold Tissue During Voice Production", TESIS DE GRADO, May 2003 (2003-05-01), Massachusetts, pages 79, XP055570356, Retrieved from the Internet <URL:www.biorobotics.harvard.edu/pubs/hgthesis.pdf> [retrieved on 20161215] *
PEDERSEN, M ET AL.: "Which Mathematical and Physiological Formulas era Describing Voice Pathology: An Overview", JOURNAL OF GENERAL PRACTICE, vol. 4, no. 3, June 2016 (2016-06-01), XP055570371 *
See also references of EP3489857A4 *

Also Published As

Publication number Publication date
EP3489857A1 (en) 2019-05-29
US10783630B2 (en) 2020-09-22
US20190147593A1 (en) 2019-05-16
EP3489857A4 (en) 2020-05-13
AR109057A1 (es) 2018-10-24

Similar Documents

Publication Publication Date Title
Krausert et al. Mucosal wave measurement and visualization techniques
US10783630B2 (en) Method for estimating force and pressure of collision in vocal cords from high-speed laryngeal videos
Lohscheller et al. Phonovibrography: Mapping high-speed movies of vocal fold vibrations into 2-D diagrams for visualizing and analyzing the underlying laryngeal dynamics
Mehta et al. Automated measurement of vocal fold vibratory asymmetry from high-speed videoendoscopy recordings
Patel et al. Characterizing vibratory kinematics in children and adults with high-speed digital imaging
Wurzbacher et al. Model-based classification of nonstationary vocal fold vibrations
JP2010279539A (ja) 診断支援装置および方法並びにプログラム。
Braunschweig et al. High-speed video analysis of the phonation onset, with an application to the diagnosis of functional dysphonias
Naghibolhosseini et al. Temporal segmentation for laryngeal high-speed videoendoscopy in connected speech
Patel et al. In vivo measurement of pediatric vocal fold motion using structured light laser projection
Mehta et al. Integration of transnasal fiberoptic high-speed videoendoscopy with time-synchronized recordings of vocal function
George et al. Depth-kymography: high-speed calibrated 3D imaging of human vocal fold vibration dynamics
Freeman et al. A comparison of sung and spoken phonation onset gestures using high-speed digital imaging
Yousef et al. Spatial segmentation for laryngeal high-speed videoendoscopy in connected speech
Verikas et al. Advances in laryngeal imaging
Manfredi et al. Videokymographic image processing: objective parameters and user-friendly interface
Manfredi et al. Objective vocal fold vibration assessment from videokymographic images
Doellinger et al. Variability of normal vocal fold dynamics for different vocal loading in one healthy subject investigated by phonovibrograms
Sommer et al. Estimation of inferior-superior vocal fold kinematics from high-speed stereo endoscopic data in vivo
Li et al. Quantitative study for the surface dehydration of vocal folds based on high-speed imaging
Patel et al. Spatiotemporal quantification of vocal fold vibration after exposure to superficial laryngeal dehydration: A preliminary study
Qin et al. Improving reliability and accuracy of vibration parameters of vocal folds based on high-speed video and electroglottography
Ghasemzadeh et al. Non-linear image distortions in flexible fiberoptic endoscopes and their effects on calibrated horizontal measurements using high-speed videoendoscopy
Kumar et al. Visual and automatic evaluation of vocal fold mucosal waves through sharpness of lateral peaks in high-speed videokymographic images
WO2021171464A1 (ja) 処理装置、内視鏡システム及び撮像画像の処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16908372

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2016908372

Country of ref document: EP

Effective date: 20190214