Identificación de ideología política mediante un modelo Transformer para estilometría y Clasificación por votos en Machine Learning

César Espín Riofrio, William Ferruzola Sánchez, Abel Aspiazu Torres, Verónica Mendoza Morán

Resumen


El objetivo principal de este artículo es la determinación de la inclinación ideológica de usuarios de Twitter en Ecuador. Los datos recopilados se obtuvieron de la plataforma Twitter, estos se almacenaron en Datasets, se procesaron y etiquetaron para alimentar los métodos clasificadores los cuales entrenaron para realizar la predicción de ideología política a través del uso de modelos Transformer y Voting Classifier en Machine Learning, se usará Validación Cruzada para potenciar y evaluar durante el entrenamiento a modelos clasificadores como Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting. Se ejecutará el modelo Transformer pre-entrenado para el español llamado Roberta-large-bne destinado para la extracción de características estilométricas halladas en textos, además se tendrá características fraseológicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen y, de palabras de uso frecuente tomadas del corpus en español llamado CREA, este proceso permitió formar un vector final de características los cuales servirán para el entrenamiento. Se busca clasificar la ideología política en base a textos cortos tomados de Twitter y analizar los resultados de cada clasificador para validar cual es el más adecuado para la tarea de clasificación y predicción, dichos resultados servirán como indicador de factibilidad para estudios similares en un futuro.


Palabras clave


Transformers; Ideología política; Estilometría; Machine Learning.

Texto completo:

PDF HTML

Referencias


Berkson, J. (1944). Application of the Logistic Function to Bio-Assay. Journal of the American Statistical Association, 39(227), 357–365. https://doi.org/10.1080/01621459.1944.10500699

Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28. https://doi.org/10.38094/jastt20165

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference (Vol. 1).

Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences. 30, 681–694. https://doi.org/10.1007/s11023-020-09548-1

jpotts18 (Jeff Potter) · GitHub. (n.d.). Retrieved August 25, 2022, from https://github.com/jpotts18

Kamath, C. N., Bukhari, S. S., & Dengel, A. (2018). Comparative study between traditional machine learning and deep learning approaches for text classification. Proceedings of the ACM Symposium on Document Engineering 2018, DocEng 2018. https://doi.org/10.1145/3209280.3209526

Kingsley Zipf, G. (1932). Selected Studies of the Principle of Relative Frequency in Language. Selected Studies of the Principle of Relative Frequency in Language. https://doi.org/10.4159/HARVARD.9780674434929/HTML

Laboratories, T. B., Avenue, M., & Murray, U. H. (1995). Random Decision Forests.

Mosteller, F., & Wallace, D. L. (2012). Inference in an Authorship Problem. Http://Dx.Doi.Org/10.1080/01621459.1963.10500849, 58(302), 275–309. https://doi.org/10.1080/01621459.1963.10500849

Pranckevičius, T., & Marcinkevičius, V. (2017). Comparison of Naive Bayes, Random Forest, Decision Tree, Support Vector Machines, and Logistic Regression Classifiers for Text Reviews Classification. Baltic Journal of Modern Computing, 5(2), 221–232. https://doi.org/10.22364/bjmc.2017.5.2.05

Proaño, M., Orellana, S., & Martillo, I. (2018). Los sistemas de información y su importancia en la transformación digital de la empresa actual. Espacios, 39(45), 3–7.

Quinlan, J. R. (1986). Induction of Decision Trees. In Machine Learning (Vol. 1).

Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408.

Shah, K., Patel, H., Sanghvi, D., & Shah, M. (2020). A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification. Augmented Human Research, 5(1). https://doi.org/10.1007/s41133-020-00032-0




DOI: https://doi.org/10.23857/pc.v7i9.4642

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/