v
Evaluacion de sistemas
Los progresos realizados en un sistema deben ser
medidos o evaluados para conocer las deficiencias y problemas que éste
presenta. Aunque una evaluación cualitativa puede resultar útil en las etapas
iniciales del desarrollo del sistema, medidas cuantitativas bajo unas mismas
condiciones resultan de vital importancia para ver el progreso real del sistema
y compararlo consigo mismo o con otros. Los números no aportan información si
se desconoce de dónde proceden, es decir, qué representan. La evaluación de
cualquier tecnología debe ir acompañada de un conjunto de medidas estándar
propuestas para tal fin. La disponibilidad de bases de datos y de protocolos o
procedimientos para la evaluación de estos sistemas ha sido un componente muy
importante, casi fundamental, en el progreso alcanzado en este campo y ha
permitido compartir nuevas ideas, e incluso compararlas con otras ya
consolidadas. Los progresos en la evaluación de sistemas de comprensión del lenguaje
hablado están comenzando. Así vamos a mencionar a continuación diferentes
acuerdos alcanzados [PRI90] en la evaluación de sistemas:
Conjuntos de Datos de Entrenamiento y de Prueba
Independientes. La
importancia de disponer de conjuntos de datos independientes para el
entrenamiento/desarrollo y para la evaluación de sistemas de reconocimiento de
habla viene siendo aceptada desde hace bastante tiempo por la comunidad
científica. Sigue siendo igual de importante para el desarrollo y evaluación de
los sistemas de comprensión de habla, aunque para estos últimos nos interesará
tener datos de prueba dónde aparezcan el mayor número de fenómenos del habla
posibles (son importantes las construcciones gramaticales, los efectos propios
del habla espontánea, etc.), para colocar al sistema en el mayor número de
situaciones (léxicas, sintácticas y semánticas) posible. Sin embargo, es
conveniente resaltar que el proceso de evaluación no deja de ser parte del
proceso de entrenamiento, pues en muchos casos los resultados de la misma
sirven para depurar o mejorar el comportamiento final del sistema. Por tanto,
es importante que exista un conjunto de datos independiente y realista, tan
grande como sea posible, con el que se evalúe definitivamente un sistema y con
cuyos resultados no se intente seguir desarrollando (mejorando) el sistema.
Evaluación del Sistema como Caja Negra. La evaluación de los componentes de
un sistema es una tarea importante durante el desarrollo del mismo, aunque no
es especialmente útil para comparar sistemas entre sí, al menos que los
sistemas a comparar sean muy similares, lo que no suele ser el caso. La
motivación para evaluar los componentes de un sistema es puramente interna, por
tanto, no es absolutamente necesario llegar a acuerdos en la comunidad
internacional sobre la metodología de evaluación de los mismos. Las medidas de
evaluación de los componentes internos de un sistema pueden utilizarse para
evaluar las tecnologías empleadas en cada componente como una función de sus
parámetros de diseño; por ejemplo, el funcionamiento de un módulo de
reconocimiento acústico puede ser evaluado como una función de la perplejidad
alofónica y sintáctica, el funcionamiento de un analizador sintáctico (parser)
como una función de la calidad (errores) de la secuencia de palabras (frase) de
entrada. Además, estas medidas son útiles para evaluar el progreso conseguido,
y cómo los cambios en varios componentes afectan al resto de los mismo.
v Lo que el usuario dice: la entrevista y el
cuestionario
Una vez realizados los tests, los observadores mantuvieron una entrevista
con cada uno de los usuarios. La entrevista ayudó a percibir cuestiones
subjetivas que no siempre aparecían durante el test de usuario y permitió
conocer la sensación que tiene éste tras la prueba. Esta entrevista vino
apoyada además por un cuestionario que los usuarios debían rellenar fuera del
lugar de la prueba y enviar posteriormente. En estas pruebas las preguntas que
los evaluadores planteaban iban encaminadas a afinar los resultados obtenidos
en el test de usuario en aspectos relacionados con la utilidad, facilidad,
rapidez, efectividad y satisfacción del sistema.
Aquello que los usuarios valoraron más positivamente es la facilidad en el uso de las bases de datos, la claridad del vocabulario y de los textos explicativos y la rapidez en el uso del recurso. Por otro lado, aquello que valoraron más negativamente es la claridad de los iconos, de los textos de los menús y la estructura de las páginas, y por último la utilidad de la página de ayuda (tabla 3).
0 comentarios:
Publicar un comentario