MÉTODO PARA EL ANÁLISIS AUTOMÁTICO DE EXÁM ENES
La presente solicitud reclama la prioridad para la Solicitud de Patente Norteamericana Provisional No. 60/263,223, presentada el 23 de Enero, 2001 . Campo de la Invención La presente invención se refiere generalmente al procesamiento de documentos y a la identificación automatizada de elementos del discurso, tales como manifestaciones de tesis, en un examen . Antecedentes de la Invención Debido al éxito de la tecnolog ía automática de calificación de exámenes, dicha apl icación ha sido integrada dentro de las eval uaciones escritas estandarizadas actuales . La comunidad escritora ha expresado u n interés en el desarrollo de un sistema de eval uación de exámenes que incl uye la retroalimentación acerca de las características del examen para facilitar el proceso de revisión del examen. Existen muchos factores que contribuyen a la mejora general del desarrollo de los escritores . Estos factores incluyen, por ejemplo, la estructura refinada de oraciones, la variedad del uso de palabras apropiadas, y la estructura organizacional . La mejora de la estructura organizacional se considera que es crítica en el proceso de revisión de exámenes hacia la calidad general del examen . Por lo tanto, sería deseable tener un sistema que pud iera indicar en forma de retroalimentación a los estudiantes, los elementos del discurso en sus exámenes. Sumario de la I nvención La presente invención facilita el análisis automático, la identificación y clasificación de los elementos del discurso en una m uestra de un examen. En un aspecto, la presente invención es un método para el anál isis automático de u n examen . El método comprende los pasos de aceptar un examen ; determinar si está presente o ausente cada una de u n conjunto de características previamente determinadas en cada oración del examen ; por cada oración en el examen , calcular una probabilidad de que la oración sea un miembro de una cierta categoría del elemento del discurso, en donde la probabilidad está basada en las determinaciones de si está presente o ausente cada característica del conjunto de características ; y elegir una oración como la elección para la categoría del elemento del discurso , basada en las probabilidades calculadas. La categoría de elemento del discurso de preferencia es la man ifestación de la tesis. El examen de preferencia se encuentra en la forma de un documento electrónico, tal como un archivo ASCI I . El conjunto de características previamente determinadas de preferencia com prende lo siguiente. U na característica basada en la posición dentro del examen ; una característica basada en la presencia o ausencia de ciertas palabras en donde ciertas palabras comprenden las palabras que se cree que están empíricamente asociadas con la man ifestación de la tesis; y una característica basada en la presencia o ausencia , de ciertas palabras en donde dichas ciertas palabras comprenden palabras que han sido determinadas que tienen una relación retórica basada en la salida de un analizador de estructura retórica. El cálculo de las probabi lidades de preferencia se hace en la forma de un modelo Bernoulli multivariado. En otro aspecto, la presente invención es un proceso de capacitación de un analizador de exámenes automático. El proceso de capacitación acepta una pluralidad de exámenes y de los comentarios manuales que indica los elementos del discurso en la pl uralidad de los exámenes. El proceso de capacitación acepta un conjunto de características que se correlacionan intencionalmente con el hecho de si una oración de un examen es un tipo particular de elemento del discurso. El proceso de capacitación calcula las probabilidades empíricas relacionadas con la frecuencia de las características y relacionando las características del conjunto de características con los elementos del discurso. Todavía en otros aspectos , la presente invención es un medio que se puede leer por computadora en el cual están incrustados programas de computadora que realizan el método y proceso anteriores . En comparación con la técnica anterior conocida, ciertas modalidades de la presente invención tienen la capacidad de lograr ciertas ventajas, incl uyendo algunas o todas las siguientes: ( 1 ) el iminar la necesidad del ¡nvolucramiento h umano para proporcionar retroalimentación acerca de un examen ; (2) mejorar las líneas de tiempo de retroal imentación a un escritor de un examen; y (3) la util ización cruzada de los parámetros del anál isis automático del examen determinados a partir de los exámenes sobre un tema determinado con los exámenes de diferentes temas o que responden a diferentes preguntas . Aquellos expertos en la técnica apreciarán estas y otras ventajas y beneficios de las d iferentes modalidades de la presente invención al momento de leer la siguiente descripción detal lada de la modalidad preferida que hace referencia a los dibujos que se encuentran a contin uación . Breve Descri pción de los Di bujos La figura 1 , es una gráfica de flujo de un método para proporcionar la retroalimentación automática del examen, de acuerdo con una modal idad de la presente invención; y La figura 2 , es una gráfica de fl ujo de un proceso para la capacitación del método de retroalimentación automático del examen de la figura 1 , de acuerdo con u na modalidad de la presente invención . Descripción Detal lada de la Invención I. Revisión General Usando u n cuerpo pequeño de datos de exámenes en donde las manifestaciones de tesis han sido anotadas manualmente, un clasificador Bayesian puede ser construido utilizando las sig uientes características: a) posición de la oración , b) palabras generalmente usadas en la manifestación de la tesis, y c) características del discu rso basadas en los análisis retóricos de la teoría de la estructu ra (RST). Los resultados experimentales indican que esta técnica de clasificación puede ser utilizada para la identificación automática de las manifestaciones de tesis en los exámenes. Además, el método generaliza los temas cruzados durante todo el examen . U na manifestación de la tesis generalmente es definida como la oración q ue identifica de manera explícita el propósito del documento o preveé sus ideas principales. Aunque esta definición parece lo suficientemente directa, conduciría a que uno creyera que la identificación de la manifestación de la tesis en un examen sería demasiado clara para la gente. Sin embargo, éste no es siempre el caso. En los exámenes escritos por los escritores en desarrollo, las manifestaciones de la tesis no son tan claras y las ideas se repiten . Como resultado, los lectores humanos a veces eligen i ndepend ientemente d iferentes man ifestaciones de la tesis del mismo examen del estudiante. El valor de este sistema puede ser utilizado para indicar en forma de retroalimentación a los estudiantes, que los elementos del discu rso en sus exámenes son provechosos. Dicho sistema podría presentar a los estudiantes una l ista de preguntas guiadas para considerar acerca de la calidad del d iscurso. Por ejemplo, se ha sugerido por los expertos en la escritura, que si la manifestación de la tesis de un examen de un estud iante pudiera ser proporcionada automáticamente, entonces el estudiante pod ría utilizar esta información para reflejarla en la manifestación de la tesis y su calidad. Además, dicha aplicación de instrucción podría utilizar la manifestación de la tesis para d iscutir otros tipos de elementos del discurso del examen , tales como la relación entre la manifestación de la tesis y la manifestación de la tesis y la conclusión , y la conexión entre la manifestación de la tesis y los puntos principales del examen. En la enseñanza de la escritura, con frecuencia a los estudiantes se les presenta una "Lista de Verificación de Revisión". La "Lista de Verificación de Revisión" pretende facilitarnos el proceso de revisión. Esta es una lista de preguntas formuladas al estudiante que lo ayudan a reflejarlas en la calidad de su escritura. De este modo, por ejemplo, dicha lista pod ría formular preguntas como las sig uientes , (a) ¿ Está clara la intención de mi man ifestación de la tesis?, (b) ¿ Mi manifestación de la tesis responde directamente a la pregunta del examen?, (c) ¿ Están manifestados claramente los puntos principales en mi examen?, y (d) ¿Se relacionan los puntos principales de mi examen con mi manifestación original de la tesis?.
La capacidad para identificar automáticamente, y presentar a los estudiantes los elementos de discurso de sus exámenes que los pueden ayudar para enfocarse y reflejar la estructura crítica del discurso del examen . Además , la capacidad para que la aplicación ind iq ue al estudiante que un elemento de discurso podría estar localizado, tal vez debido a la "carencia de claridad" de este elemento, también podría ser útil . Suponiendo que dichas capacidades fueran confiables, esto forzaría al escritor a pensar acerca de la claridad de un elemento del discurso determinado, tal como la manifestación de la tesis. II. Provisión de un Análisis Automático del Examen La figura 1, es una gráfica de flujo de un método 100 para proporcionar un análisis automático del examen, de acuerdo con una modalidad de la presente invención. El método 100 estima que oración del examen es más probable que permanezca en cierta categoría del discurso, tal como la declaración de la tesis, conclusión, etc. El método 100 comienza aceptando un examen (110). El examen de preferencia se encuentra en la forma electrónica en este paso. El método 100 luego lleva a cabo un circuito 115. El método 100 hace que uno pase a través del sujeto 115 por cada una de las oraciones del ensayo. Cada paso del circuito 115 obtiene la siguiente oración (120) y determina (130) la presencia o ausencia de cada una de las características An . . . An (habiéndose determinado que la característica A-i . . . An es importante para una categoría particular del discurso). Si se evalúan más de una categoría del discurso, se puede predeterminar un conjunto de características A1 . . . An diferentes por cada categoría del discurso. Posteriormente el circuito 115 computa (140) una expresión de probabilidad por cada oración (S) para la categoría del discurso (T) utilizando la siguiente fórmula.
l g[P(Ai | G) / P Ai)] si Ai está presente iog[Pffls)]-iogTO] + ?log[í>(I(|T)/p(I ] sjAi noestápresen(e en donde P(T) es la primera probabil idad de q ue una oración se encuentre en la categoría del discurso T; P(A¡|T) es la probabil idad cond icional de que una oración tenga la característica Ai , debido a que la oración se encuentra en T; P(A¡) es la probabilidad anterior de que una oración contiene la característica A¡; P(A¡|T) es la probabilidad condicional de que una oración no tenga la característica A¡, debido a que se encuentra en T; y P(Á¡) es la probabilidad anterior de que la oración no contenga la característica A¡. El funcionamiento puede ser mejorado utilizando un calculador LaPlace para tratar los casos cuando los estimados de probabilidad son cero. El método 1 00 luego prueba (1 50) si el recurso actual es el último y lo vuelve a enlazar para obtener la siguiente oración en el paso 120 , si no es así. Después de que ha sido evaluada una expresión de probabilidad por cada oración , el método 1 00 elige ( 1 60) la oración con la expresión de probabilidad máxima para la categoría del discurso particular. El método 1 00 puede ser repetido por cada una de las diferentes categorías del d iscurso. De preferencia, el paso de aceptación 1 1 0 acepta directamente el documento en una forma electrónica, tal como un archivo ASCI I. En otra modalidad, el paso de aceptación 1 1 0 comprende los pasos de explorar una forma de papel del examen , y realizar un reconocimiento óptico de caracteres en el examen de papel explorado. En una modal idad , el paso de determinación 1 30 y el paso de computación 140 se repiten a través de la lista indexada de las características Ai . . . An y actualiza el valor de la expresión de probabilidad , basado en la presencia o ausencia de cada característica Ai . . . An . Otra modalidad del paso de determinación 1 30 y el paso de computación 140, es que la presencia o ausencia de todas las características A1 . . . An podría ser determinada ( 1 30), y luego podría ser computada la expresión de probabil idad (140) para dicha oración. Aquellos expertos en la técnica pueden apreciar que los pasos del método 1 00 se pueden llevar a cabo en un orden diferente al il ustrado, o simultáneamente, en modalidades alternativas. III Ejem plo de Uso Como u n ejemplo del método 1 00, consideremos este caso cuando la categoría del d iscurso es una man ifestación de la tesis, de modo que el método 1 00 calcula que oración de un examen que es más probable que sea la manifestación de la tesis. Asumiendo que el examen 1 00 util iza solamente las características de ocurrencia de palabras y de posición para identificar la manifestación de la tesis, de la manera siguiente: Ai = W_FEEL = Ocurrencia de la palabra "sentir" (feel). A2 = SP_1 = Siendo la primera oración del examen. A3 = SP_2 = Siendo la segunda oración del examen . A4 = SP_3 = Siendo la tercera oración del examen . A5 = S P_4 = siendo la cuarta oración del examen . Etc.
Suponiendo además q ue las probabil idades anteriores y cond icionales de estas características han sido previamente determinadas o suministradas de otro modo. Generalmente, estas probabilidades son determinadas por un proceso de capacitación (como se describirá con mayor detalle más adelante haciendo referencia a la figura 2) . Para este ejemplo, supongamos que las características anteriores fueron determ inadas empíricamente examinando 93 exámenes que contienen un gran total de 2391 oraciones, de las cuales 1 1 1 fueron Indicadas por el anotador h umano como la manifestación de la tesis . De este conjunto de datos , se determinaron las siguientes probabilidades previas, contando las frecuencias de la ocurrencia de las características del número total de oraciones (en donde la diagonal precedente 7 " indica el "no" o el operador del complemento): P(TH ESI S) = 1 1 1 /2391 = 0.0464 P(W_FEEL) = 1 88/2391 = 0.0786 P(/W_FE EL) = 1 - 0.0786 = 0.921 3 P(SP_1 ) = 93/2391 = 0.0388 P(/SP_1 ) = 1 - 0.0388 = 0.961 1 P(SP_2) = 93/2391 = 0.0388 P(/S P_2) = 1 - 0.0388 = 0.961 1 P(SP_3) = 93/2391 =0.0388 P(/SP_3) = 1 - 0.0388 = 0.961 1 P(SP_4) = 93/2391 = 0.0388 P(/SP_4) = 1 - 0.0388 = 0.961 1 Por estos números se puede apreciar, que cada uno de los exámenes del conjunto de capacitación contenía por lo menos cuatro oraciones. Un experto en la técnica podría continuar con las probabilidades de la característica de posición de la oración adicional, pero solamente se necesitaron cuatro en el ejemplo siguiente. Del mismo conjunto de datos, se determinaron las siguientes probabilidades de condición contando las frecuencias de la ocurrencia de la característica de las oraciones de las tesis solamente: P(W_FEEL|THESIS) = 35/111 = 0.3153 P(/W_FEEL|THESIS) = 1 - 0.1861 = 0.6847 P(SP_1|THESIS) = 24/111 = 0.2162 P(/SP_1|THESIS) = 1 - 0.2162=0.7838 P(SP_2|THESIS) = 15/ 11 = 0.1612 P(/SP_2|THESIS) = 1 - 0.1612 = 0.8388 P(SP_3|THESIS) = 13/111 = 0.1171 P(/SP_3[THES!S) = 1 - 0.1171 = 0.8829 P(SP_4|THESIS) = 14/111 = 0.1262 P(/SP_4|THESIS) = 1 - 0.1262 = 0.8739 Con el conjunto de datos preliminar, el examen 100 comienza leyendo (110) el siguiente resumen del examen: La mayor parte de las veces nosotros como gente experimentamos muchos conflictos en la vida. Nos ponemos nosotros mismos en conflicto diariamente eligiendo entre algo que no queremos hacer y algo que sentimos que debemos hacer. Por ejemplo, yo conocí a amigos de la familia que querían ir al ejército. Ellos sabían que si hubieran ido a la universidad iban a obtener una mejor educación. Y ahora mis amigos que fueron al ejército me dicen que si ellos hubieran tenido la oportunidad de regresar y hacer nuevamente la elección, ellos ¡rían con la sensación de que tomarían una mejor decisión. El método 100 se enlaza a través de cada oración del examen anterior, oración por oración. La primera oración, indicaba S1, es "La mayor parte de las veces . . . vida". Las características observadas de S1 son /W_FEEL, SP_1, /SP_2, /SP_3 y /SP_4, debido a que esta oración es la primera oración del examen y no contiene la palabra "sentir". La expresión de probabilidad para esta oración es computada (140) de la manera siguiente: log[P(T|S1)] = log [P(T)] + log [P(/W_FEEL|T) / P(/W_FEEL)] + log [P(SP_1]T) / P(SP_1)] + log [P(/SP_2|T) / P(/SP_2)] + log [P(/SP_3|T) / P(/SP_3)] + log [P(/SP_4|T) / P(/SP_4)] = log [0.0464] + log [0.6847 / 0.9213] + log [0.2162 / 0.0388] + log [0.8388 / 0.9611] + log [0.8829 / 0.9611] + log [0.8739 / 0.9611] = -0.8537 La segunda "oración", indicada S2, generalmente son dos oraciones, pero el método puede tratar un grupo de oraciones como una sola oración, cuando, por ejemplo, las oraciones están relacionadas de cierta manera, como en este caso en donde la segunda oración comienza con la frase "Por ejemplo . . ." De este modo, S2 en este ejemplo, es "Nosotros pusimos . . . ejército". Sus características son /SP_1 ,SP_2,/SP_3,/SP_4 y W_FEEL, como sería determinado por el paso 130. Computando la expresión de probabilidad (140), para S2 se haría lo siguiente: log[P(T|S2)] = log [P(T)] + log [P(W_FEEL|T)/P(W_FEEL)j + log [P(/SP_1|T) / P(/SP_1)] + log [P(SP_2|T) / P(SP_2)] + log [P(/SP_3|T) / P(/SP_3)] + log [P(/SP_4|T) / P(/SP_4)] = log [0.0464] + log [0.3153 I 0.0786] + log [0.7838 / 0.9611] + log [0.1612 / 0.0388] + log [0.8829 / 0.9611] + log [0.8739 / 0.9611] = -0.2785 De un modo similar, para la tercera oración, sus características son /W_FEELJSP_1 ,/SP_2,SP_3 y /SP_4 , y su valor de expresión de probabilidad es -1 .1717. El valor de la expresión de probabilidad para la cuarta oración es de -1 .1 760. El valor máximo de expresión de probabilidad es -0.2785, correspondiente al S2. Por lo tanto, la segunda oración está seleccionada (1 60) como la manifestación de la tesis más probable, de acuerdo con el método 100. Observar que el término de probabil idad anterior P(T) es el mismo por cada oración ; por lo que este término puede ser ignorado para los propósitos del método 1 00 para una categoría del discurso determinada . Observar también que mientras los cálculos precedentes fueron realizados utilizando un logaritmo de base-1 0, cualquier base (por ejemplo, un logaritmo natural , 1 n) puede ser utilizado en vez del mismo, siempre que se utilice el logaritmo de base de una manera consistente. IV. Construcción de un Analizador Automático de Exámenes La figura 2, es una gráfica de flujo de un proceso 200 para entrenamiento del método 1 00 , de acuerdo con una modalidad de la presente invención. El proceso 200 comienza aceptando (210) una pl uralidad de exámenes. Los exámenes de preferencia se encuentran en una forma electrónica en este paso . Entonces, el método 200 acepta los comentarios man uales (21 0). El método 200 determina (225) el universo de todas las características posibles A-i . . . An. Final mente, el método 200 computa (260) la probabil idad empírica relacionada con cada una de las características Ai en toda la pl uralidad de exámenes.
El método de aceptación preferido (21 0), de la pluralidad de los exámenes se encuentra en la forma de documentos electrónicos y el formato electrónico preferido es ASCI I . El método preferido de aceptación (21 0) de la pl uralidad de exámenes es en la forma de textos electrónicos ingresados directamente o almacenados. Alternativa o adicionalmente, los exámenes podrían ser aceptados (21 0) utilizando un método que comprende los pasos de la exploración de las formas de papel de los exámenes, y realizando el reconocimiento óptico de caracteres en los exámenes de papel explorados. El método preferido de aceptación (220) de los comentarios manuales es en la forma de exámenes de texto electrónico que han sido anotados manualmente por los humanos expertos en la técnica de la identificación de los elementos del discurso. El método preferido para ind icar la anotación manual de los elementos del discurso previamente especificados es por medio de encerrar entre paréntesis los elementos del discu rso dentro de las "etiq uetas" de inicio y fin (por ejemplo, <ldea Sostenida>. . . </ldea Sostenlda>, < anifestación de la Tesis> . . . </Manifestación de la Tesis>). La modalidad preferida del método 200 determina entonces
(225) el universo de todas las características posibles para una sección particular del discurso. El paso de determinación de la característica 225 comienza determinando (230) el universo de características de posición A^ ...Ak. Luego, el paso de determinación de característica 225 determina (240) el un iverso de características de elección de palabras Ak+i ...Am . Final mente, el paso de determinación de característica 225 determina (250) el universo de las características retóricas de la teoría de estructura (RST)
Una modalidad del paso de determinación de características de posición 230 se encierra a través de cada examen en la pluralidad de exámenes, anotando la posición de los elementos del discurso indicados dentro de cada examen y determinando el número de oraciones de d icho examen . Una modal idad del paso de determinación de la característica de elección de palabra 240 analiza la pluralidad de exámenes y crea una lista de todas las palabras conten idas dentro de las oraciones marcadas por u n anotador humano como que son una manifestación de la tesis. Alternativa o adicionalmente , el paso de la determinación del universo de las características de elección de palabra Ak+1 ...Am 240 puede aceptar una lista previamente determinadas de una lista de palabras que se consideran palabras de confianza, palabras de opinión , etc. Una modalidad del paso de determinación de características RST (teoría de la estructura retórica) 250 analiza la pl uralidad de exámenes para extraer lo que es pertinente. El analizador RST de preferencia utilizado en el paso 250 se describe en el documento "El Análisis Retórico de los Textos Naturales de Idioma", (The Rhetorical Parsing of Natural Language Texts), de arcu, D., Actas de la 35° Reunión Anual de la Assoc. for Computational Linguistics, 1 997, páginas del 96 al 1 03, la cual está incorporada a la presente descripción como referencia . Los antecedentes adicionales sobre la RST se pueden encontrar en la publicación "Teoría Retórica de la Estructura: Hacia una Teoría Funcional de la Organización del Texto", (Rhetorical Structure Theory: Toward a Functional Theory of Text Organization), de Mann, W.C . y S.A. Thompson , Texto 8(3), 1 988, páginas 243 a 281 , el cual también está incorporado a la presente descripción como referencia. Por cada elemento del discurso, el método 200 computa (260) las frecuencias empíricas relacionadas con cada característica A¡ en toda la pl uralidad de exámenes . Para una oración (S) de la categoría del discurso (T), se determinan las siguientes probabilidades por cada A¡: P(T), la probabilidad anterior de q ue una oración esté en la categoría del discurso T; P(Ai|T), la probabilidad condicional de que una oración tenga la característica A¡, debido a que la oración se encuentra en T; P(A¡); la probabil idad anterior de que una oración contenga la característica A¡: P(Á¡|T), la probabilidad condicional de que una oración no tenga la característica A¡, debido a que esa oración se encuentra en T; y P(A¡), la probabilidad anterior de que una oración no contenga la característica A¡. El método 1 00 y el proceso 200 se pueden llevar a cabo por medio de programas de cómputo. Los programas de cómputo pueden existir en una variedad de formas, tanto activos como inactivos. Por ejemplo, pueden existir programas de cómputo en la forma de programas de software que comprenden instrucciones del programa en un código de fuente, código de objeto, código ejecutable u otros formatos; programas de firmware; o archivos de lenguajes de descripción del equipo (hardware) (HDL). Cualq uiera de los anteriores puede ser i ncorporado en un medio leg ible por computadora, el cual incluye dispositivos de almacenamiento y señales, en u na forma comprimida o sin comprimir. Los dispositivos de almacenamiento legibles por computadora de ejemplo, incluyen los sistemas RAM de cómputo convencionales (memoria de acceso aleatorio), ROM (memoria sólo de lectura), EPROM (una ROM programable que se puede borrar), EEPROM (una ROM que se puede programar y que se puede borrar eléctricamente), y en discos mag néticos u ópticos o cintas. Las señales legibles por computadora de ejemplo, son ya sea moduladas utilizando un transportador o no, son señales de un sistema de cómputo central o que opera los programas de cómputo que pueden ser configurados para tener acceso a ellos , incluyendo las señales bajadas a través de la Internet u otras redes . Los ejemplos concretos de lo anterior incluyen la distribución de programas ejecutables del programa de cómputo de un CD ROM , o por medio de la descarga de I nternet. En un sentido, la Internet misma como u na entidad abstracta , es u n med io legible por computadora. Lo mismo es cierto de las redes de cómputo en general. V. Experi mentos Util izando el Analizador Automático de Exámenes A. Experimento 1 - Línea de Base El experimento 1 utiliza un clasificador Bayesian para la manifestación de la tesis util izando las respuestas de los exámenes a una pregunta de la Prueba de Experiencia en Inglés (EPT): Tema B. Los resultados de este experimento sugieren que se pueden utilizar métodos automáticos para identificar la manifestación de la tesis en un examen . Además, el funcionamiento del método de clasificación , que tiene todavía u n conjunto pequeño de datos anotados manualmente se aproximada al funcionamiento humano, y excede el funcionamiento de la línea de base. En colaboración con dos expertos en escritura, se desarrolló un protocolo de anotación basado en el discurso simple para indicar manualmente los elementos del discurso de los exámenes para un solo tema del examen . Este fue el intento inicial para anotar los datos del examen utilizando los elementos del discurso asociados generalmente con la estructura del examen , tales como la manifestación de la tesis, incluyendo la manifestación , las oraciones del tema de las ¡deas principales del examen. Los expertos en escritura definieron las características de las etiquetas del discurso. Luego estos expertos llenaron las anotaciones posteriores utilizando una ¡ nterfase basada en la PC implementada en el sistema Java. La Tabla 1 indica la coincidencia entre los dos anotadores humanos para la etiquetación de la manifestación de la tesis. Además, la tabla muestra un funcionamiento de la l ínea de base de dos vías. La manifestación de la tesis generalmente aparece al inicio de un examen . Por lo tanto, se utilizó un método de línea de base en donde la primera oración de cada examen era seleccionada automáticamente como la manifestación de la tesis. Esta selección basada en la posición , cuando es comparada posteriormente con la selección de la tesis del anotador humano resuelta (por ejemplo, las anotaciones finales coincid ieron en los dos anotadores humanos) por cada uno de los exámenes (&H Basado en la Posición). Además, se compararon las elecciones de la manifestación de la tesis aleatorias con las selecciones h umanas 1 y 2, y las declaraciones de tesis solucionadas (Aleatorio&H ). La col u mna % de Traslape en la Tabla 1 ind ica el porcentaje de tiempo en el q ue los dos anotadores seleccionaron el mismo texto exacto como la manifestación de la tesis. El valor Kappa entre los dos anotadores humanos fue de 0.733. Esto indica una buena coincidencia entre los anotadores humanos. Este valor Kappa sugiere que la tarea de la selección man ual de la manifestación de la tesis estuvo bien definida .
TABLA 1
Anotadores % de Traslape
1&2 $ 0.530 &H Basado en la Posición $ 0.240 Aleatorio &H $ 0.070
B. Experimento 2 El experimento 2 uti lizó tres tipos generales de características para construir el clasificador: a) la posición de la oración , b) las palabras que ocurren generalmente en una manifestación de la tesis, y c) las etiquetas del RST de las salidas generadas por un analizador existente de estructura retórica (Marcu , 1 997) . Entonces se capacitó al clasificador para predecir la manifestación de la tesis en un examen. Utilizando una fórmula multivariada Bernoulli , que se explica más adelante, esto nos da la probabilidad de logaritmo de que una oración (S) en un examen pertenezca a la clase (T) de las oraciones que se encuentran en la manifestación de la tesis. El experimento 2 utilizó tres tipos de características para construir el clasificador. Estas fueron a) de posición, b) de léxico, y c) características del discurso basadas en la Teoría de la Estructura Retórica (RST). Con respecto a la característica de posición , encontramos que en los datos anotados por los humanos , los anotadores generalmente marcaron una oración como una tesis al inicio del examen . De este modo, la posición de la oración fue una característica importante . Con respecto a la información del léxico, nuestra investigación indicó que nosotros utilizamos como características las palabras en las oraciones anotadas como la man ifestación de la tesis , que también probaron ser útiles para la identificación de la manifestación de la tesis. Además la información proveniente de los árboles de análisis basados en la RST son y pueden ser útiles. En el experimento 2 se utilizaron dos tipos de características de léxico: a) la lista de palabras de la tesis, y b) la lista de palabras que de confianza. Para la lista de palabras de la tesis, incl uimos la información de léxico en la manifestación de la tesis de la siguiente manera para construir el clasificador de la manifestación de la tesis. Para los datos de capacitación, se creó u na lista de vocabulario que incluyó una ocu rrencia de cada palabra utilizada en una manifestación de la tesis (en el conjunto de exámenes de capacitación) . Todas las palabras de esta lista fueron utilizadas como una característica del léxico para construir el clasificador de manifestación de la tesis . Como encontramos que nuestros resultados fueron mejores si se utilizaban todas las palabras utilizadas en la manifestación de la tesis, no se utilizó lista de detención. La lista de palabras de confianza incluyó un pequeño diccionario de aproximadamente 30 palabras y frases, tales como opinión, importante, mejor y en ese orden . Estas palabras y frases fueron comunes en el texto de la manifestación de la tesis. El clasificador fue entrenado sobre este conju nto de palabras, además de la lista de vocabulario de palabras de la tesis. De acuerdo con la RST uno puede asociar un árbol de estructura retórica con cualqu ier texto. Las hojas del árbol corresponden a las unidades elementales del discurso, y los nodos internos corresponden a las extensiones de texto contiguas. Las extensiones de texto representadas en el nivel de cláusu la y oración. Cada nodo del árbol está caracterizado por una condición (núcleo o satélite), y una relación retórica, la cual es una relación que se sostiene entre dos extensiones de texto que no se traslapan . La d istinción entre los n úcleos y los satélites viene de la observación empírica de que el núcleo expresa lo que es más esencial para la intención del escritor que el satélite; y que el núcleo de una relación retórica es comprensible independientemente del satélite, pero no viceversa. Cuando las extensiones son igualmente importantes, la relación de la semántica multinuclear refleja las relaciones retóricas, intencionales y las relaciones de texto que se sostienen entre las extensiones del texto. Por ejemplo, una extensión del texto puede elaborarse sobre otra extensión del texto; la información de las dos extensiones del texto puede estar en contraste; y la información en una extensión del texto puede proporcionar antecedentes para la información presentada en otra extensión del texto . El algoritmo considera dos piezas de información a partir de los árboles de análisis RST para construir el clasificador: a) si es el nodo paterno para la oración un n úcleo o un satélite, y b) qué un idades elementales del discurso están asociadas con la tesis contra las oraciones que no son de la tesis. En el Experimento 2, examinamos lo bien que funcionó el algoritmo comparado con la coincidencia de los dos jueces humanos, y las l íneas de base de la Tabla 1 . La Tabla 2 indica el funcionamiento de 6 carreras de validación cruzadas . En estas carreras , 5/6 de los datos fueron utilizados para la capacitación y 1 /6 para la validación cruzada subsecuente . La coincidencia es evaluada en el 1 /6 de los datos. Para esta inclusión del experimento de las siguientes características para constru ir el clasificador, se produjeron los resultados que se encuentran en la Tabla 2: a) posición de la oración, b) ambos tipos de características RST, y c) la lista de palabras de la tesis. Nosotros aplicamos este método de validación cruzada al conjunto de datos total (Todo), en donde la muestra de capacitación contenía 78 manifestaciones de la tesis, y para un conjunto estándar de oro, en donde se utilizaron 49 exámenes (GS) para la capacitación. El conjunto estándar de oro incluye los exámenes en donde los lectores humanos coincidieron en los comentarios de manera independiente. La evaluación compara la coincidencia entre el algoritmo y la anotación solucionada (A&Res), el anotador humano 1 y la anotación solucionada (1&Res), y el anotador 2 y la anotación solucionada (2&Res). El "% de Traslape" en la Tabla 2 se refiere al porcentaje de tiempo que es el traslape exacto en el texto para dos anotaciones. Los resultados excedieron ambas líneas de base de la Tabla 1. TABLA 2: Porcentaje promedio de traslape para 6 carreras de validación cruzada
Anotaciones N Coincidencia % de Coincidencia de Traslape
Todos:A&Res 15.5 7.7 50.0 GS:A&Res 9 5.0 56.0 1&Res 15.5 9.9 64.0 2&Res 15.5 9.7 63.0
C. Experimento 3 Nuestro siguiente experimento muestra que las manifestaciones de la tesis en los exámenes parecen ser característicamente diferentes de la oración del resumen en los exámenes, como han sido identificadas por los anotadores humanos. Para los datos del Tema B del Experimento 1 , se utilizaron dos anotadores humanos que utilizaron la misma interfase de anotación basada en la Computadora Personal con el objeto de anotar resúmenes de una oración de los exámenes. Una nueva opción de etiquetación fue agregada a la interfase para esta tarea denominada "Oración del Resumen". Estos anotadores no habían visto estos exámenes anteriormente, ni habían participado en las tareas de anotación anteriores. Se les pidió a los anotadotes que identificaran de manera independiente una sola oración de cada examen que fuera la oración del resumen del examen. Los valores kappa para la anotación man ual de estas manifestaciones de la tesis (Th) comparadas con las manifestaciones del resumen (SumSent) muestran que la tarea anterior es definida de una manera mucho más clara . Nosotros vemos que un valor kappa de .603 no muestra una coincidencia fuerte entre los anotadores para la tarea de la oración del resu men . Para la tarea de anotación de la tesis, el valor kappa fue de .733 el cual muestra una buena coincidencia entre los anotadores. En la Tabla 3, los resultados ind ican de manera importante que h ubo un pequeño traslape en cada examen entre lo que los etiquetadores humanos habían etiquetado como la manifestación de la tesis en la tarea inicial, y lo que se había anotado como la oración del resumen (Th/SumSent Overlap).
Esto sugiere de manera importante de que existen diferencias críticas entre las manifestaciones de la tesis y las oraciones del resu men en los exámenes, las cuales son interesantes para explorarlos de manera adicional . Es de interés que algunos de los datos preliminares indicaron que lo q ue los anotadores marcaron como las oraciones del resumen parecían estar relacionadas más cercanamente con las manifestaciones de conclusión de la prueba. TAB LA 3: Valores Kappa y Porcentaje de Traslape entre las Selecciones de Tesis Manuales (Th) y las Manifestaciones de Resumen (SumSent)
Th SumSent Th/SumSent Traslape Kappa .733 .603 N/A ½ de Traslape .53 .41 .06
Por los resultados de la Tabla 3, podemos inferir que las manifestaciones de la tesis en las pruebas son de un género diferente, que digamos , una manifestación de problemas en los artículos de los periódicos . Desde esta perspectiva , el algoritmo de clasificación de la tesis parece ser apropiado para la tarea de la identificación automática de la manifestación de la tesis. D. Experimento 4 ¿Cómo se generaliza el algoritmo en todos los temas? El siguiente experimento prueba la generalización del método de selección de la tesis. Específicamente, este experimento responde a la preg u nta de si hubieron características de posición , de léxico y d iscurso que subyacen en una manifestación de la tesis, y si estas fueron o no, independientes del tema. Si es así , esto indicaría una capacidad para anotar las manifestaciones de las tesis sobre un número de temas, y el nuevo uso del algoritmo en los temas adicionales, sin una anotación adicional . Un experto en escritura anotó manual mente la manifestación de la tesis en aproximadamente 45 exámenes para 4 temas adicionales. Temas A, C, D y E . Esta persona completó esta tarea utilizando la misma interfase que fue utilizada por los dos anotadores del Experimento 1 . Los resultados de estos experimentos sugieren que las características de estructura del discurso, de posición y léxico aplicados en los Experimentos 1 y 2, se pod rían generalizar en todo el tema del examen . Para probar la capacidad de generalización del método, por cada uno de los temas EPT las oraciones de las tesis seleccionadas por un experto en escritura fueron utilizadas para construir el clasificador. Se utilizaron cinco combinaciones de cuatro avisos para constru ir el clasificador en cada caso, y entonces el clasificador fue validado de manera cruzada sobre el quinto tema, no utilizado para construir el clasificador. Para evaluar el funcionamiento de cada uno de los clasificadores se calculó la coincidencia por cada muestra de "validación cruzada" (tema sencillo) comparando la selección del algoritmo con nuestra selección de la manifestación de la tesis del experto en escritura. Por ejemplo, nosotros nos capacitamos en los Temas A, B , C, y D , y usando las manifestaciones de tesis seleccionadas man ualmente. Entonces este clasificador fue utilizado para seleccionar automáticamente, las manifestaciones de tesis para el Tema E. En la evaluación , la selección del algoritmo fue comparada con el conjunto de man ifestaciones de tesis para el Tema E seleccionado manualmente, y se calculó la coincidencia. Las coincidencias exactas para cada carrera se presentan en la Tabla 4. En todos los casos menos en uno, la coincidencia exced ió ambas l íneas de base de la Tabla 1 . En dos casos, en donde el porcentaje de traslape fue inferior en la validación cruzada (Temas A y B), pudimos lograr un traslape más alto utilizando el vocabulario de la lista de palabras de confianza como características, además del vocabu lario de la l ista de palabras de tesis. En el caso del Tema A, logramos una coincidencia más alta, solamente cuando se agregó la característica de palabras y de palabras de confianza y se aplicó el tema Bayes clásico (ver la nota al pie 2). La coincidencia fue del 34% (1 7/50) para el Tema B, y del 31 % (1 6/51 ) para el Tema A. TABLA 4: Funcionamiento en un Tema Sencillo de Validación Cruzada (Tema CV) Utilizando Cuatro Temas Únicos del Examen para la Capacitación.
Temas de Capacitación Tema CV Coincidencias % de Traslape
ABCD E 47 19 40.0 ABCE D 47 22 47.0 ABDE C 31 13 42.0 ACDE B 50 15 30.0 BCDE A 51 12 24.0 Los experimentos descritos anteriormente indican lo siguiente: Con un cuerpo relativamente pequeño de datos del examen anotados manualmente, se puede utilizar un método multivariado Bernoulli para construir un clasificador utilizando las características del discurso, de posición y de léxico. Este algoritmo puede ser usado para seleccionar automáticamente las manifestaciones de tesis de los exámenes . Los resultados de ambos experimentos indican que la selección del algoritmo de las manifestaciones de tesis coinciden con una opinión humana casi tan frecuentemente como pueden coincidir dos opiniones humanas entre ellas. Los valores kappa para la coincidencia humana sugieren que la tarea de la anotación manual de la manifestación de la tesis en los exámenes está bien definida de manera razonable. También estamos volviendo a definir el protocolo actual de anotación , de modo que defina todavía más claramente la tarea de etiquetación . Nosotros esperamos que esto aumentará la coincidencia humana en las anotaciones futuras, y la confiabilidad de la selección automática de la tesis, ya que los clasificadores están construidos utilizando los datos anotados man ualmente. Los experimentos proporcionan también evidencia de que este método para la selección automática de tesis en los exámenes se puede generalizar. Es decir, una vez que esté capacitado en los pocos apuntes humanos anotados, podría ser aplicado a otros apuntes determinados para una población de escritores similar, en este caso, de escritores en el nivel de nuevo ingreso en la universidad. La implicación más grande es que comenzamos a ver que existen elementos de discurso subyacentes en los exámenes que pueden ser identificados, independientes del tema de la pregunta de la prueba. Para apl icaciones de evaluación del examen, esto es crítico, ya que las nuevas preguntas de la prueba están siendo introducidas contin uamente dentro de las aplicaciones de eval uación de los exámenes en l ínea . También consumiría demasiado tiempo y sería demasiado costoso repetir el proceso de anotación para todas las nuevas preguntas de la prueba. V. Concl usión Lo que se ha descrito e ilustrado en el presente documento en una modalidad preferida de la presente invención junto con algunas de sus variaciones. Los términos, descripciones y figuras aquí util izados se presentan a modo de ilustración únicamente y no deberán de ser interpretados como limitaciones. Aquellos expertos en la técnica reconocerán que son posibles muchas variaciones dentro del espíritu y alcance de la invención , la cual se pretende que sea definida por las siguientes reivindicaciones — y sus equivalentes - en las cuales todos los términos son interpretados en el sentido razonable más amplio a menos que se indique lo contrario.