Simulador de Texto
por Eduardo Abel Gimenez
Una herramienta para generar texto artificial que conserva las propiedades estadísticas del lenguaje original
¿Qué es este simulador?
Es una aplicación que genera texto artificial a partir de un texto fuente, creando secuencias que suenan familiares pero no tienen un significado directo. El resultado mantiene las características estructurales del idioma original.
Se basa en el concepto de cadenas de Markov, un modelo matemático que describe secuencias donde cada elemento depende únicamente del elemento anterior (o de un número fijo de elementos anteriores). En el contexto del procesamiento de texto, esto significa que cada carácter generado depende únicamente de los últimos N caracteres.
Las cadenas de Markov son especialmente efectivas para modelar lenguaje porque capturan patrones locales sin requerir comprensión semántica. Por ejemplo, en español, después de "qu" aparecerá una e o una i, y después de una consonante doble como "ll" aparecerá una vocal.
Cómo funciona la aplicación
Empieza tomando los primeros N caracteres del texto fuente como semilla. Por ejemplo, si N=3 y el texto comienza con "Había una vez...", la semilla será "Hab".
Para cada nuevo carácter a generar:
- Se toman los últimos N caracteres del texto generado hasta el momento
- Se busca otra aparición de esta secuencia en el texto fuente
- Se toma el carácter que sigue a la ocurrencia seleccionada
La aplicación ofrece dos modos de selección:
- Secuencial: Busca sistemáticamente la siguiente ocurrencia de la secuencia, produciendo resultados determinísticos y reproducibles
- Aleatorio: Elige aleatoriamente entre las ocurrencias disponibles, generando variaciones diferentes en cada ejecución
Cuando el algoritmo llega al final del texto fuente, continúa desde el principio, tratando el texto como circular. Esto asegura que siempre haya un carácter siguiente disponible.
Opciones
Número de caracteres (N)
Este es el parámetro más importante. El mayor interés está en detectar las diferencias según cuál sea N.
Longitud máxima
Determina cuántos caracteres generar. Por defecto genera 1.000
Velocidad de generación
Controla el tiempo entre caracteres, permitiendo observar el proceso en tiempo real o generar texto rápidamente.
Recomendaciones de uso
Selección del texto fuente
Usar textos lo más largos que sea posible. Un libro completo (100,000+ caracteres) es ideal porque:
- Proporciona mayor variedad de secuencias de caracteres
- Reduce la repetición de patrones
- Permite explorar valores más altos de N
Esta implementación procesa archivos de texto plano (.txt) codificados en UTF-8, preservando acentos, espacios y signos de puntuación. Es sensible a mayúsculas y minúsculas.
Experimentación
Probar diferentes combinaciones:
- Mismo texto con diferentes valores de N
- Diferentes textos con el mismo N
- Modo secuencial vs. aleatorio
- Textos en diferentes idiomas