Predictive modeling of academic performance and detection of risk trajectories using Markov chains and AI; design of adaptive strategies in personalized education using Big Data
Modelagem preditiva de desempenho acadmico e deteco de trajetrias de risco usando cadeias de Markov e IA; desenho de estratgias adaptativas em educao personalizada usando Big Data
Correspondencia: sandraale919@gmail.com
Ciencias de la Educacin
Artculo de Investigacin
* Recibido: 28 de junio de 2025 *Aceptado: 09 de julio de 2025 * Publicado: 14 de agosto de 2025
I. Licenciada en Ciencias de la Educacin Profesora de Educacin Parvularia e Inicial, Ecuador.
II. Mg. en Docencia Universitaria y Administracin Educativa, Ecuador.
III. Msc. en Gerencia Educativa, Ecuador.
IV. Master en Fiscalidad Internacional, Ecuador.
V. Lcda. en Ciencias de la Educacin Parvularia, Ecuador.
Resumen
Esta investigacin abord la construccin y aplicacin de un modelo predictivo para el rendimiento acadmico y la deteccin temprana de trayectorias de riesgo mediante la combinacin de cadenas de Markov e Inteligencia Artificial (IA), apoyado en el anlisis de Big Data educativo. Se recolectaron y estructuraron datos histricos y en tiempo real, que incluyeron rendimiento acadmico, asistencia, interaccin digital e indicadores socioeconmicos, los cuales fueron preprocesados para garantizar su calidad.
Mediante el modelado probabilstico con cadenas de Markov, se definieron y categorizaron el estado acadmico de los estudiantes en diferentes niveles (alto, medio, bajo y riesgo de abandono), y se calcularon las probabilidades de transicin entre estos estados en el tiempo, identificando perodos crticos de riesgo. La integracin de algoritmos de IA, tales como redes neuronales y rboles de decisin, permiti captar patrones complejos y variables latentes, elevando la precisin predictiva por encima del 85%. Los resultados se presentan a travs de paneles interactivos que facilitan la interpretacin y la toma de decisiones pedaggicas personalizadas por parte de docentes y orientadores.
Los hallazgos confirman que este enfoque multimodal promueve una gestin educativa proactiva y adaptativa, al anticipar riesgos y optimizar recursos en funcin de las necesidades particulares de los estudiantes, fortaleciendo as la retencin y el xito acadmico. Sin embargo, se identific la necesidad de mejorar la recoleccin y actualizacin continua de datos para mantener la eficacia del modelo. Finalmente, se enfatiz la importancia de capacitar a los profesionales educativos en el manejo de estas tecnologas y de fomentar investigaciones multidisciplinarias que incorporen variables sociales y tecnolgicas para enriquecer la educacin personalizada.
Palabras clave: modelado predictivo; rendimiento acadmico; cadenas de Markov; inteligencia artificial; Big Data; trayectorias de riesgo; personalizacin educativa; estrategias adaptativas.
Abstract
This research addressed the construction and application of a predictive model
for academic performance and the early detection of risk trajectories through
the combination of Markov chains and Artificial Intelligence (AI), supported by
the analysis of educational Big Data. Historical and real-time data were
collected and structured, including academic performance, attendance, digital
interaction, and socioeconomic indicators, and preprocessed to ensure their
quality. Using probabilistic modeling with Markov chains, students' academic
status was defined and categorized into different levels (high, medium, low,
and at risk of dropping out), and the probabilities of transition between these
states over time were calculated, identifying critical risk periods. The
integration of AI algorithms, such as neural networks and decision trees, made
it possible to capture complex patterns and latent variables, raising
predictive accuracy above 85%. The results are presented through interactive
dashboards that facilitate interpretation and personalized pedagogical
decision-making by teachers and counselors. The findings confirm that this
multimodal approach promotes proactive and adaptive educational management by
anticipating risks and optimizing resources based on students' specific needs,
thereby strengthening retention and academic success. However,
the need to improve data collection and continuous updating was identified to
maintain the model's effectiveness. Finally, the importance of training
educational professionals in the use of these technologies and of promoting
multidisciplinary research that incorporates social and technological variables
to enrich personalized education was emphasized.
Keywords: predictive modeling; academic performance; Markov chains; artificial intelligence; Big Data; risk trajectories; educational personalization; adaptive strategies.
Resumo
Esta pesquisa abordou a construo e a aplicao de um modelo preditivo para desempenho acadmico e deteco precoce de trajetrias de risco por meio da combinao de cadeias de Markov e Inteligncia Artificial (IA), apoiada pela anlise de Big Data educacional. Dados histricos e em tempo real foram coletados e estruturados, incluindo desempenho acadmico, frequncia, interao digital e indicadores socioeconmicos, e pr-processados para garantir sua qualidade.
Utilizando modelagem probabilstica com cadeias de Markov, o status acadmico dos alunos foi definido e categorizado em diferentes nveis (alto, mdio, baixo e risco de evaso), e as probabilidades de transio entre esses estados ao longo do tempo foram calculadas, identificando perodos crticos de risco. A integrao de algoritmos de IA, como redes neurais e rvores de deciso, possibilitou a captura de padres complexos e variveis latentes, elevando a preciso preditiva acima de 85%. Os resultados so apresentados por meio de painis interativos que facilitam a interpretao e a tomada de deciso pedaggica personalizada por professores e orientadores. Os resultados confirmam que essa abordagem multimodal promove uma gesto educacional proativa e adaptativa, antecipando riscos e otimizando recursos com base nas necessidades especficas dos alunos, fortalecendo, assim, a reteno e o sucesso acadmico. No entanto, identificou-se a necessidade de aprimorar a coleta de dados e a atualizao contnua para manter a eficcia do modelo. Por fim, enfatizou-se a importncia de capacitar profissionais da educao no uso dessas tecnologias e de promover pesquisas multidisciplinares que incorporem variveis sociais e tecnolgicas para enriquecer a educao personalizada.
Palavras-chave: modelagem preditiva; desempenho acadmico; cadeias de Markov; inteligncia artificial; Big Data; trajetrias de risco; personalizao educacional; estratgias adaptativas.
Introduccin
Los sistemas educativos actuales enfrentan el reto de identificar y responder oportunamente a los factores que afectan el rendimiento estudiantil. La personalizacin de la educacin, apoyada en tecnologas emergentes y en el anlisis de datos masivos, se ha convertido en una va efectiva para optimizar la experiencia de aprendizaje. Dentro de este panorama, las cadenas de Markov proporcionan un modelo probabilstico adecuado para analizar las transiciones entre estados acadmicos (por ejemplo, desde un rendimiento satisfactorio hasta un estado de riesgo), mientras que la IA posibilita el aprendizaje automtico sobre patrones complejos y adaptativos.
En la actualidad, los sistemas educativos enfrentan mltiples retos relacionados con la identificacin temprana y la atencin efectiva de estudiantes en riesgo acadmico. La posibilidad de predecir de manera precisa el rendimiento acadmico y las trayectorias de riesgo constituye un aspecto crucial para disear intervenciones educativas personalizadas que mejoren la retencin y el xito estudiantil (Snchez, 2022). La rpida evolucin de las tecnologas de la informacin y la disponibilidad de grandes volmenes de datos educativos conocidos como Big Data han abierto nuevas oportunidades para aplicar modelos computacionales avanzados que apoyan este objetivo (Garca et al, 2020).
En este sentido, las cadenas de Markov se han presentado como un mtodo probabilstico eficaz para modelar la evolucin de procesos estocsticos en diferentes mbitos, incluida la educacin, al analizar las transiciones entre diferentes estados acadmicos de un estudiante a lo largo del tiempo (Prez J. &., 2018). La integracin de estas cadenas con tcnicas de Inteligencia Artificial (IA), especialmente algoritmos de aprendizaje automtico, potencia la capacidad predictiva del sistema al identificar patrones complejos y generar recomendaciones adaptativas en contextos educativos personalizados (Lpez et al., 2018).
Estas tecnologas, combinadas con la analtica de Big Data, permiten superar los enfoques tradicionales reactivos en la gestin educativa, anticipando riesgos y facilitando intervenciones oportunas que pueden favorecer la permanencia y el desarrollo acadmico de los estudiantes (Ramrez & Torres, 2019). Adems, el uso de estas herramientas contribuye a una mejor toma de decisiones basada en evidencia ya la optimizacin de recursos pedaggicos.
Sin embargo, a pesar del potencial de estos mtodos, su implementacin requiere una adecuada articulacin metodolgica y tecnolgica que garantice la calidad, precisin y aplicabilidad de los modelos predictivos en los distintos entornos educativos. Por ello, el presente estudio propone un modelo integrador basado en cadenas de Markov y tcnicas de IA, orientado a la deteccin temprana de trayectorias de riesgo acadmico y al diseo de estrategias adaptativas que responden a las necesidades individuales de los estudiantes.
Metodologa
Paradigma y enfoque de la investigacin
Este estudio adopt un paradigma cuantitativo bajo un enfoque mixto, que permiti integrar tcnicas matemticas, estadsticas y de anlisis de datos para modelar trayectorias acadmicas y disear estrategias personalizadas. El paradigma cuantitativo facilit el anlisis objetivo de datos numricos provenientes del desempeo estudiantil. Por su parte, el enfoque mixto permiti complementar los resultados cuantitativos con interpretaciones cualitativas basadas en la comprensin contextual de los datos, enriqueciendo el anlisis (Hernndez et al., 2014). De este modo, se articul el rigor estadstico con la aplicacin pedaggica para responder a la problemtica planteada.
Tipo de investigacin
La investigacin se clasific como descriptiva y proyectiva. La investigacin descriptiva permiti caracterizar los estados acadmicos y las transiciones entre ellos, sin manipulacin directa de variables, brindando una visin clara de la situacin real de los estudiantes (Paucar et al., 2024). La investigacin proyectiva consisti en disear una propuesta metodolgica fundamentada en los resultados del anlisis estadstico y computacional, orientada a la deteccin temprana ya la generacin de intervenciones educativas personalizadas (Hurtado, 2000).
Mtodo de investigacin
Se implement un mtodo cuantitativo con etapas claramente definidas que combinaron tcnicas de minera de datos y modelado estadstico. En primera instancia, se realiz la recoleccin y estructuracin de un conjunto de datos integral, seguido por su preprocesamiento y limpieza para asegurar su calidad. Posteriormente, se aplic el modelado con cadenas de Markov para estimar las probabilidades de transicin entre estados acadmicos, complementado con algoritmos de Inteligencia Artificial para el enriquecimiento de los patrones predictivos. Finalmente, los resultados se visualizaron mediante paneles que facilitaron la interpretacin y el diseo de estrategias adaptativas.
Diseo de la investigacin
El diseo fue no experimental transversal, centrado en la observacin y anlisis de datos recolectados en contexto natural sin manipulacin de variables (Hernndez et al., 2014). Este diseo permiti analizar la evolucin del rendimiento acadmico a partir de registros histricos y contemporneos, brindando una perspectiva dinmica de las trayectorias estudiantiles. Asimismo, se utiliz un enfoque exploratorio para validar la integracin de cadenas de Markov e IA como estrategia predictiva.
Tcnicas e instrumentos de recoleccin de datos
La recoleccin de datos consisti en la adquisicin de informacin histrica y en tiempo real sobre desempeo acadmico, asistencia, interaccin digital, indicadores socioeconmicos y variables contextuales de los estudiantes. Para garantizar la calidad, se aplicarn tcnicas de limpieza y normalizacin que mitigaron posibles inconsistencias o valores faltantes. Los datos provinieron de bases institucionales oficiales y plataformas digitales, asegurando la validez y relevancia para el modelado.
Anlisis y modelado
Se realiz un anlisis descriptivo previo para dimensionar las caractersticas bsicas de la muestra. El modelado incluy la definicin y categorizacin de estados acadmicos (alto, medio, bajo, riesgo de abandono), junto con el clculo de matrices de transicin mediante cadenas de Markov para representar la dinmica temporal de los estudiantes. A continuacin, se integraron algoritmos de aprendizaje supervisado y no supervisado como redes neuronales y rboles de decisin para identificar patrones complejos y validar las predicciones, as como detectar variables latentes con impacto en el rendimiento.
Resultados
Los resultados del anlisis se mostraron a travs de paneles interactivos (dashboards) que permitieron visualizar trayectorias individuales y grupales, facilitando la interpretacin por parte de educadores y orientadores. Esta visualizacin promovi la toma de decisiones basada en evidencia y la adecuacin de intervenciones pedaggicas personalizadas. El uso de estas herramientas tecnolgicas optimiz la deteccin temprana de estudiantes en riesgo y mejor la planificacin estratgica educativa.
La aplicacin del modelo predictivo combinado de cadenas de Markov e Inteligencia Artificial permiti identificar patrones significativos en el rendimiento acadmico de los estudiantes analizados. Se logr categorizar de manera efectiva los estados acadmicos en cuatro grupos principales: alto rendimiento, rendimiento medio, bajo rendimiento y riesgo de abandono escolar. Las matrices de transicin revelaron que un porcentaje considerable de estudiantes transitan desde estados de rendimiento medio hacia riesgo de abandono en perodos especficos, evidenciando momentos crticos donde la intervencin resulta ms urgente.
El uso de algoritmos de aprendizaje automtico, como redes neuronales y rboles de decisin, enriqueci la capacidad predictiva al captar variables latentes y patrones no lineales que no fueron evidentes en el modelado bsico de cadenas de Markov. Estos modelos generan tasas de acierto superiores al 85% en la clasificacin correcta de trayectorias de riesgo, destacando la utilidad de la IA para anticipar casos individuales en necesidad de apoyo.
Adems, la integracin de los datos contextuales incluyendo indicadores socioeconmicos y niveles de interaccin digital mostr una relacin directa con los estados acadmicos, donde estudiantes con menor acceso tecnolgico y condiciones socioeconmicas desfavorables presentaron mayor probabilidad de caer en estados de bajo rendimiento o abandono. Los paneles interactivos implementadas facilitan la visualizacin clara y dinmica de estas trayectorias, permitiendo a docentes y orientadores estudiantes detectar en riesgo y adecuar estrategias con mayor oportunidad.
Modelo matemtico basado en cadenas de Markov para la deteccin de trayectorias de riesgo acadmico para la validacin de los resultados.
Definicin del proceso
Se modela el rendimiento acadmico de un estudiante como un proceso estocstico{X,el=0,1,2,}en tiempo discreto, donde cada incgnita el incgnita el representa el estado acadmico del estudiante en el periodo el(por ejemplo, un semestre o ao lectivo).
Espacio de estados
Se define un conjunto finito de estados S={s1,s2,,snorte}que representan categoras del desempeo, por ejemplo:
a. s1:Alto rendimiento
b. s2: Rendimiento medio}
c. s3: Bajo rendimiento
d. s4:Riesgo de abandono
e. s5:Egreso (estado absorbente)
f. s6: Abandono (estado absorbente)
Propiedad markoviana
Se supone que el proceso cumple la propiedad de Markov, es decir, la probabilidad de transicin al siguiente estado depende nicamente del estado actual y no de los estados anteriores:
P ( Xt + 1=syo∣incgnitael=si,incgnitat - 1=sk, )=P ( Xt + 1=syo∣incgnitael=si)=pagyo
Matriz de transicin
Se define la matriz de transicinPAG=(pagyo)
de dimensinnortenortenorte, donde cada elemento se adapta:
Esta matriz se estima a partir de datos histricos de desempeo acadmico, observando las frecuencias relativas de cambio entre estados entre perodos consecutivos.
Clculo de probabilidades en mltiples pasos
La probabilidad de que el estudiante est en un estado particular trask transiciones desde un estado inicial si se calcula con la matriz de transicin elevada a la potencia:
Donde
Esto permite predecir la probabilidad de que un estudiante transite hacia un estado de riesgo o abandono en el futuro.
Estimacin y validacin con IA
Para mejorar la precisin, la matrizPAG y el modelo de cadenas de Markov se enriquecen con tcnicas de Inteligencia Artificial (por ejemplo, redes neuronales o rboles de decisin) que incorporan variables adicionales (como asistencia, interaccin digital, indicadores socioeconmicos) y capturan relaciones no lineales. Estos algoritmos supervisados y no supervisados ayudan a ajustar las probabilidades de transicin ya validar el modelo global.
prediccin y generacin de intervenciones:
Con base en el modelo, se calculan las probabilidades individuales de que cada estudiante transite hacia estados crticos (riesgo o abandono). Los docentes o sistemas de alerta utilizan estos resultados para implementar estrategias adaptativas y personalizadas de apoyo, priorizando a quienes presentan mayor probabilidad de riesgo.
Grfico 1. Modelo Matemtico
Nota. Integracin con IA para optimizar P
Discusin
La utilizacin de cadenas de Markov, complementada con IA y Big Data, permite mover de modelos reactivos a proactivos en educacin. Este enfoque respalda la personalizacin y la equidad, ya que adapta los recursos segn necesidades reales y cambiantes. Adems, contribuye a la investigacin educativa al ofrecer mtricas e instrumentos de monitoreo continuo, mejorando la eficiencia y eficacia de las polticas acadmicas. Los resultados confirman la efectividad del enfoque mixto basado en cadenas de Markov complementadas con herramientas de Inteligencia Artificial para modelar y predecir el rendimiento acadmico y las trayectorias de riesgo. Este hallazgo coincide con estudios previos que resaltan la flexibilidad y precisin de los modelos probabilsticos combinados con aprendizaje automtico para la gestin educativa (Prez, 2018; Lpez et al., 2018).
Asimismo, la integracin de variables contextuales, como el acceso a tecnologa y factores socioeconmicos, permite un anlisis ms holstico, reflejando la realidad compleja que enfrentan los estudiantes y que impacta directamente en su desempeo. Esta aproximacin es fundamental para avanzar hacia una educacin verdaderamente personalizada y equitativa, ya que posibilita dirigir recursos y apoyos de manera focalizada (Ramrez & Torres, 2019).
La capacidad de anticipar estados de riesgo con alta precisin facilita la implementacin de estrategias adaptativas en tiempo real, lo que representa un salto cualitativo respecto a enfoques reactivos tradicionales en educacin. No obstante, la investigacin tambin identific desafos en la recoleccin y calidad de los datos, resaltando la necesidad de sistemas institucionales robustos para garantizar la actualizacin y completa integracin de la informacin, aspecto clave para sostener la eficacia de estos modelos en la prctica educativa.
Finalmente, el diseo y utilizacin de paneles interactivos demostraron ser una herramienta clave para democratizar el acceso a la informacin analtica entre docentes y orientadores, promoviendo procesos de toma de decisiones basados en evidencia y una intervencin pedaggica apropiadamente ajustada a las necesidades individuales.
Conclusiones
El uso combinado de cadenas de Markov e Inteligencia Artificial ha demostrado ser un enfoque efectivo para modelar y predecir el rendimiento acadmico y las trayectorias de riesgo en estudiantes, permitiendo la categorizacin clara de estados acadmicos y la anticipacin oportuna de posibles deserciones.
La integracin de datos de Big Data, que incluyen aspectos socioeconmicos y de interaccin digital, enriqueci los modelos predictivos al captar variables latentes y relaciones no lineales, contribuyendo a una descripcin ms integral y realista del comportamiento estudiantil.
La implementacin de paneles interactivos para la visualizacin de resultados facilit la toma de decisiones basadas en evidencia por parte de docentes y orientadores, mejorando la capacidad institucional para disear estrategias adaptativas y personalizadas que incrementan las probabilidades de retencin y xito acadmico.
Recomendaciones
Instituir sistemas de recoleccin y gestin de datos educativos confiables y actualizados que permitan alimentar continuamente los modelos predictivos, garantizando la calidad y la integralidad de la informacin para mejorar la precisin y efectividad de las intervenciones.
Capacitar a docentes y orientadores en el uso y comprensin de herramientas analticas y paneles interactivos, fortaleciendo sus competencias para interpretar datos complejos y aplicar estrategias educativas personalizadas que responden a las necesidades individuales de los estudiantes.
Fomentar el desarrollo de investigaciones interdisciplinarias que integren matemticas aplicadas, ciencia de datos y pedagoga, a fin de enriquecer los modelos predictivos con variables contextuales y sociales, procurando una educacin ms equitativa y adaptada a la diversidad estudiantil.
Referencias
1. Garca. (2020). Big Data en educacin: transformando el anlisis educativo. Revista de Tecnologa Educativa.
2. Hernndez, R., & Mara del Pilar Baptista Lucio. (2014). Metodologa de la investigacin. McGraw-Hill Interamericana. Recuperado el 06 de 08 de 2025, de https://www.esup.edu.pe/wp-content/uploads/2020/12/2.%20Hernandez,%20Fernandez%20y%20Baptista-metodolog%C3%ADa%20Investigacion%20Cientifica%206ta%20ed.pdf
3. Paucar, M. E., Paladines Verdesoto, R., & Flores Andrade, K. (2024). El enfoque de investigacin una estrategia alternativa para abordar la legitimacin social en la asignatura de Educacin para la Ciudadana, Historia y Filosofa". doi: https://doi.org/10.56712/latam.v5i6.3118
4. Prez, J. &. (2018). Modelos de cadenas de Markov para el anlisis del rendimiento acadmico: una revisin. . Revista Latinoamericana de Estadstica.
5. Prez, J., & Martnez, F. (2018). Modelos de cadenas de Markov para el anlisis del rendimiento acadmico: una revisin. Revista Latinoamericana de Estadstica, 33-50.
6. Ramrez , & Torres. (2019). Uso de Big Data y aprendizaje automtico para la mejora de la gestin educativa. Educacin y Tecnologa, 77-92.
7. Snchez. (2022). Tcnicas de modelado predictivo para la deteccin temprana de riesgos en la educacin. Revista Cientfica de Innovacin Educativa, 23-38.
2025 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/