¿Se puede utilizar a GPT-3 para corregir textos en español?
La corrección de textos con GPT-3, teniendo en cuenta que se ha entrenado con un corpus mayoritariamente en inglés, ¿es fiable en español?

Hace unos meses, cuando estuve de profesora auxiliar de Ciencia de Datos, durante la primera clase de Procesamiento de Lenguaje Natural, me llegó el correo de OpenAI dándome acceso a la beta de GPT-3. Cuando se enteró, el profesor me pidió que hiciera una introducción para los alumnos sobre como usarlo. Sobre todo, utilicé la documentación de GPT-3 (en inglés) y que decidí subir a GitHub para que quien quiera pueda consultar la introducción de la API de Python en español.
Aprovechando que, por fin, han eliminado la lista de espera y cualquiera puede probar el modelo, os animo a consultarlo, quizá os sea útil: Introducción a GPT-3.
Una de las posibles utilidades que se le pueden dar a GPT-3 es la revisión y corrección de errores en un texto; es uno de los ejemplos que parece funcionar correctamente en el modelo inglés. Y el español, ¿qué tal se le da?
Solicitando correcciones a GPT-3
Igual que cuando le explicas a un niño un juego, es recomendable aportarle al modelo una serie de ejemplos para que pueda generar una respuesta que se ajuste a lo que esperamos.
En muchas ocasiones no es necesario porque la estructura definida es clara y fácil de contextualizar para motores como Davinci; así, utilizando una estructura de:
English: Hello, World!
Spanish: ¡Hola, mundo!
En el caso de correcciones, podemos funcionar con el mismo esquema, aunque, como buscamos que intencionadamente tenga una comparación de correcciones específicas (quitarle la tilde a solo, sustituir la fórmula «en base a» por «según» o el cambio de la puntuación para los números superiores a 10 000), facilitar ejemplos previos puede ser una forma de reforzar las correcciones que esperamos. Entonces… ¿el modelo realiza los cambios?
El ejemplo que se muestra se ha generado de forma única y exclusiva para este artículo, preparado para mostrar las carencias del modelo al tratar de resolver este tipo de peticiones directamente en español. Que esté preparado ad hoc, no significa que se haya forzado al modelo a trabajar mal, simplemente es una condensación de pruebas previas en las que he ido probando y cambiando la forma de interactuar con él para ver si, con esos cambios, actuaba mejor. No fue el caso.

La persistencia de la tilde en solo
Como si de un tozudo melancólico se tratara, para GPT-3, «solo» lleva tilde y no hay forma de hacerle cambiar de opinión (bueno, tal vez con un ajuste fino…).
Un corrector de estilo soluciona este tipo de errores, habitualmente, igual que los casos de la tilde en los pronombres demostrativos (este, esta, aquel…), guion o truhan: como no existen excepciones, con un reemplazo en bloque del defecto, cuidando el uso de mayúsculas, minúsculas y el número, queda solucionado.
Si el corrector ha utilizado a GPT-3 para una primera limpieza, seguiría teniendo que aplicar una macro para asegurarse de que este problema se ha solucionado.
Aplicando los conocimientos a medias
Al interpretar cada vez que se le solicita el texto, según el «camino» que utilice, puede ocurrir que haga lo esperado o no; aunque en el texto aparezca previamente una corrección, no es fiable que la aplique en los siguientes.
Particularmente me llamó la atención el caso del cambio de puntuación en los números: la primera vez que se le presentaba el número y su corrección siguió aplicando el punto; en el segundo, sin embargo, sí hizo la corrección y lo cambió por un espacio (pese a tener ejemplos puntuados en medio).
Quizá para correcciones puntuales y muy específicas, sí que funcione; pero, siendo sinceros, ¿no es más rápido que lo corrija el humano sobre la marcha? En textos largos, viendo el comportamiento, es más complicado que corrija todo lo que debe y, por lo tanto, que el corrector pueda fiarse del trabajo realizado por la herramienta.
El caso de ospedarlas me pareció bastante simpático (aunque a un humano no vuelves a contratarlo). Pese a que había realizado correcciones de fallos ortográficos bien, me sorprendió muchísimo que no le pusiera (en ninguna de las dos oportunidades que le di) la h, pero que corrigiera el laísmo… ¿es posible que no conozca la palabra hospedar?

Tal vez si el modelo hubiese sido entrenado específicamente en español o con un conjunto de datos depurado del idioma, aunque fuese uno de los minoritarios en el conjunto, respondiera mejor.
El riesgo de un modelo estocástico para las correcciones
Una de las primeras cosas que aprende un corrector es que el estilo del autor se debe respetar siempre y que un buen corrector no es el que más cambios hace, sino el que hace solo los imprescindibles para que el texto sea correcto (existen diferentes niveles de profundidad de corrección de estilo).
En los ejemplos que he aportado, el modelo ha respetado la estructura y el contenido, pero su comportamiento no es del todo predecible. Una vez entiende el juego no tiene reparos en seguir generando frases originales, como se ve en los diferentes ejemplos.
Por supuesto, existen las secuencias de parada (stop sequence) que se pueden añadir para pararlo anticipadamente; pero en un texto largo encontrar una secuencia adecuada puede ser más un problema que una solución; además, según el grado de libertad que tenga y la longitud, igual comienza a cambiar fragmentos antes de que finalice la corrección.

Sí que importa cómo son y están los datos del entrenamiento
Los modelos del lenguaje no se inventan los resultados, estos se basan en la ponderación de las posibilidades según lo que han entrenado antes; igual que cualquier niño cuando aprende una tarea nueva. Si el conjunto de datos en español tiene un mayor peso y perseverancia en un error ortográfico, la red neuronal lo interpretará como la respuesta y solución esperada.
Esto quiere decir que el principal problema de GPT-3 a la hora de devolver resultados en español está en el conjunto de datos utilizado, el volumen de muestras de español con las que ha trabajado y como se han tratado durante el preprocesamiento de la información.
Dado que es un trabajo llevado a cabo sobre todo para el conjunto de inglés (y es el que más se ha cuidado), siendo la presencia de otros idiomas residual, es complicado que los vicios y errores comunes se vean compensados en GPT-3 de manera que tenga un peso menor la forma incorrecta.
Ejemplo de esto puede verse en que, al pedirle que corrija la tilde de «solo» cuando funciona como adverbio, no lo hace; incluso, el propio GPT-3, al general texto en español, tiende a poner esta tilde.
La explicación es sencilla: el conjunto de datos de entrenamiento proviene de internet en su mayor parte, donde la tendencia a escribir con tilde por parte de los usuarios es alta (en contra de la propia norma); así que no es raro que este vicio se haya trasladado como algo normal al propio modelo.
Otros sesgos de lenguaje que pueden detectarse fácilmente, a la hora de solicitar que haga una corrección, son en expresiones del tipo «en base a», un error bastante común en el público hispanohablante y que cualquier corrector de estilo (y detectable por algunos correctores automáticos especializados) sustituirá por «con base en», «basándose en», «de acuerdo con»… Aunque este problema en particular, en el ejemplo aportado, lo solucionó de forma aceptable, no lo hizo igual en anteriores pruebas.
Teniendo esto en cuenta, ¿sería buena idea utilizar a GPT-3 como primera herramienta de limpieza de un texto? Aunque el modelo es útil y muestra cierto grado de eficacia en inglés, las normas del español no están adecuadamente interiorizadas por el modelo; por lo que podría suponer un riesgo y un trabajo mayor de edición posterior por parte de un corrector humano para detectar estos errores.
Además, ya existen otras soluciones especializadas específicamente para el español que tienen mayor fiabilidad a la hora de aportar correcciones y refinamientos a nivel ortográfico, gramatical, de legibilidad, claridad, jergas y concisión de un texto.
Lo que hace que me pregunte en la posible necesidad y utilidad de aplicar una solución de inteligencia artificial a este proceso; no porque crea que no puede hacerse e, incluso, mejorar el rendimiento de un corrector humano, sino porque todavía los modelos de IA que trabajan el Procesamiento de Lenguaje Natural están comenzando a despuntar y el uso de los datos que se utilizan, y el volumen que requieren para un entrenamiento adecuado, no están debidamente calibrados para que el rendimiento de este modelo en español pueda compararse al de un humano. Quizá la solución fácil para GPT-3 pase por hacer un ajuste fino del modelo con estas correcciones para el español.
La realidad es que, actualmente, una buena macro, un diccionario de sustituciones (según libro de estilo) y un corrector automático especializado (como el editor que ofrece el programa de Microsoft Word), son mejores aliados para el corrector de estilo español.
Contenido originalmente publicado en Medium el 8 de diciembre de 2021 (https://medium.com/@erebyel/se-puede-utilizar-a-gpt-3-para-corregir-textos-en-espa%C3%B1ol-2b871795bed4)