Identificacin de ideologa poltica mediante un modelo Transformer para estilometra y Clasificacin por votos en Machine Learning

 

Identification of political ideology through a Transformer model for stylometry and Classification by votes in Machine Learning

 

Identificao de ideologia poltica atravs de um modelo Transformer para estilometria e classificao por votos em Machine Learning

 

Csar Espn-Riofrio I
cesar.espinr@ug.edu.ec
https://orcid.org/0000-0001-8864-756X

,William Ferruzola-Snchez II
william.ferruzolas@ug.edu.ec
https://orcid.org/0000-0002-5388-1337
Abel Aspiazu-Torres III
abel.aspiazut@ug.edu.ec
https://orcid.org/0000-0003-1918-1385

,Vernica Mendoza-Morn IV
veronica.mendozam@ug.edu.ec
https://orcid.org/0000-0001-7520-3505
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: cesar.espinr@ug.edu.ec

 

 

Ciencias Tcnicas y Aplicadas

Artculo de Investigacin

 

* Recibido: 23 de julio de 2022 *Aceptado: 12 de agosto de 2022 * Publicado: 12 de septiembre de 2022

 

 

         I.            Magster en Sistemas de Informacin Gerencial, Universidad de Guayaquil, Ecuador.

       II.            Universidad de Guayaquil, Ecuador.

     III.            Universidad de Guayaquil, Ecuador.

    IV.            Magster Universitario en Software y Sistemas, Universidad de Guayaquil, Ecuador.

 

 

 

 


 

Resumen

El objetivo principal de este artculo es la determinacin de la inclinacin ideolgica de usuarios de Twitter en Ecuador. Los datos recopilados se obtuvieron de la plataforma Twitter, estos se almacenaron en Datasets, se procesaron y etiquetaron para alimentar los mtodos clasificadores los cuales entrenaron para realizar la prediccin de ideologa poltica a travs del uso de modelos Transformer y Voting Classifier en Machine Learning, se usar Validacin Cruzada para potenciar y evaluar durante el entrenamiento a modelos clasificadores como Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting. Se ejecutar el modelo Transformer pre-entrenado para el espaol llamado Roberta-large-bne destinado para la extraccin de caractersticas estilomtricas halladas en textos, adems se tendr caractersticas fraseolgicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen y, de palabras de uso frecuente tomadas del corpus en espaol llamado CREA, este proceso permiti formar un vector final de caractersticas los cuales servirn para el entrenamiento. Se busca clasificar la ideologa poltica en base a textos cortos tomados de Twitter y analizar los resultados de cada clasificador para validar cual es el ms adecuado para la tarea de clasificacin y prediccin, dichos resultados servirn como indicador de factibilidad para estudios similares en un futuro.

Palabras clave: Transformers; Ideologa poltica; Estilometra; Machine Learning.

 

Abstract

The main objective of this article is the determination of the ideological inclination of Twitter users in Ecuador. The collected data were obtained from the Twitter platform, these were stored in Datasets, processed and labeled to feed the classifier methods which trained to perform the prediction of political ideology through the use of Transformer and Voting Classifier models in Machine Learning, Cross Validation will be used to enhance and evaluate during training classifier models such as Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron and Gradient Boosting. The pre-trained Transformer model for Spanish called Roberta-large-bne will be executed for the extraction of stylometric features found in texts, in addition to phraseological features such as MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen and frequently used words taken from the Spanish corpus called CREA, this process allowed to form a final vector of features which will be used for training. The aim is to classify political ideology based on short texts taken from Twitter and analyze the results of each classifier to validate which is the most suitable for the classification and prediction task, these results will serve as a feasibility indicator for similar studies in the future.

Keywords: Transformers; Political Ideology; Stylometry; Machine Learning.

 

Resumo

O objetivo principal deste artigo determinar a inclinao ideolgica dos usurios do Twitter no Equador. Os dados coletados foram obtidos da plataforma Twitter, estes foram armazenados em Datasets, processados ​​e rotulados para alimentar os mtodos classificatrios que foram treinados para prever a ideologia poltica atravs do uso de modelos Transformer e Voting Classifier em Machine Learning, utilizar Cross Validation para impulsionar e avaliar modelos de classificador como Regresso Logstica, Floresta Aleatria, rvore de Deciso, Perceptron Multicamada e Aumento de Gradiente durante o treinamento. Ser executado o modelo Transformer pr-treinado para espanhol chamado Roberta-large-bne, destinado extrao de caractersticas estilomtricas encontradas em textos, bem como caractersticas fraseolgicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen e, de palavras de uso frequente retiradas do corpus em espanhol denominado CREA, este processo permitiu formar um vetor final de caractersticas que sero utilizadas para o treinamento. Busca classificar a ideologia poltica com base em pequenos textos retirados do Twitter e analisar os resultados de cada classificador para validar qual o mais adequado para a tarefa de classificao e previso, esses resultados serviro como indicador de viabilidade para estudos semelhantes no futuro.

Palavras-chave: Transformadores; Ideologia poltica; Estilometria; aprendizado de mquina

 

Introduccin

En la actualidad, la Inteligencia Artificial (IA) se utiliza para un sin nmero de tareas y es tan prometedora dado que est impulsando la productividad como nunca, la razn de esto es que esta tecnologa permite que las mquinas comprendan y alcancen objetivos especficos con mayor eficiencia y reduciendo la posibilidad de errores al mnimo. Machine Learning (ML) es un trmino muy nombrado dentro del campo de la Inteligencia Artificial, y de hecho estos estn estrechamente relacionados, sin embargo, no son lo mismo, debido a que el ML es una rama o subcategora que pertenece a la IA, ahora bien, dentro de esta tecnologa, contamos principalmente con 2 tipos de aprendizajes, el supervisado y no supervisado.

La estilometra surge por consecuencia del comienzo de la Atribucin de Autora en el siglo XIX, donde expertos enfocados en el campo lingstico lograban determinar a qu autor corresponden textos y documentos desconocidos aplicando mtodos basados en expertos, clasificando caractersticas importantes dentro del texto o el habla de una persona. El primer mtodo propuesto para identificar autores basado nicamente en el estilo de escritura es el mtodo Chi-cuadrado, que consiste en generar una curva para cada archivo en cuestin, reflejando as la relacin entre la longitud de palabra y su frecuencia (Mendenhall, 1889). Posteriormente, en el siglo XX, se comenzaron a utilizar mtodos estadsticos para determinar la distribucin de una auditora, como el mtodo de frecuencia relativa que permite identificar la autora en funcin nicamente del nmero de apariciones de palabras en un texto (Kingsley Zipf, 1932). Debido al uso de mtodos estadsticos y sus problemas al aplicarlos en la identificacin de un autor determinado, (Mosteller & Wallace, 2012) lograron adoptar un enfoque de investigacin multivariante en los "Federalist Papers" analiz palabras de uso frecuente como 'a', 'y', etc. Luego usaron 30 palabras y un clasificador Naive Bayes para resolverlo, que comienza asignando la autora desde un rea computacional. Posteriormente se ide un nuevo enfoque basado en el aprendizaje automtico, teniendo en cuenta el aprendizaje supervisado, basado en un proceso que permite entrenar a travs de las caractersticas y etiquetas de un texto dado, para finalmente poder hacer predicciones basadas en caractersticas conocidas con anterioridad, donde (Rosenblatt, 1958) demostr que el algoritmo Multilayer Perceptron provee predicciones rpidas despus del entrenamiento con datos de grandes longitudes.

Transformer fue popular gracias al documento de Google Attention is All You Need (Vaswani et al., 2017), donde han logrado mejoras significativas en el desempeo de varias tareas de aprendizaje en el Procesamiento del Lenguaje Natural (PLN) y la visin por computadora, reemplazando a los modelos neuronales convolucionales y recurrentes. Como indica (Gardner et al., 2018) la estructura de Transformers fue inspirada en la biblioteca pionera tensor2tensor y el cdigo fuente original de BERT, surge del concepto de proporcionar un almacenamiento en cach fcil para modelos previamente entrenados presentado de AllenNLP, iniciando con el primer modelo transformer denominado Generative Pretrained Transformer, tambin conocido como GPT, creado por (Openai et al., 2018), Posteriormente GoogleAI cre el modelo Bidirectional Encoder Representations from Transformer o BERT el cual (Devlin et al., 2019) describe como un modelo que interpreta con precisin todos los elementos de una consulta de bsqueda en contexto. OpenAI crea un modelo mejorado perteneciente a la serie GPT denominado GPT-3 donde (Floridi & Chiriatti, 2020) establecen como un modelo de lenguaje autorregresivo que utiliza el aprendizaje profundo para generar textos que imitan la escritura humana. Con el tiempo, la arquitectura de Transformer ha demostrado ser particularmente beneficiosa para la capacitacin previa en un gran corpus de documentos, lo que resulta en aumentos significativos en la precisin para tareas posteriores como clasificacin de texto, comprensin del idioma, traduccin automtica, centrado, resolucin normal y resumen, entre otros (Wolf et al., 2020).

Figura 1: Timeline de modelos Transformers

 

La presente investigacin se orienta hacia el aprendizaje de tipo supervisado, dado que provee tcnicas que nos permitirn realizar predicciones en base a datos etiquetados suministrados previamente. La investigacin girar en torno a este tipo de implementacin de Machine Learning ya que se pretende clasificar a los usuarios de la red social Twitter en Ecuador, de acuerdo con su afinidad poltica binaria (izquierda y derecha) y multiclase (izquierda moderada, izquierda, derecha moderada, derecha), esperando tener resultados que indiquen qu movimiento poltico tiene mayor cantidad de partidarios. Por otra parte, es importante mencionar la utilizacin de un listado exhaustivo de palabras ms utilizadas del idioma espaol, llamado CREA (Corpus de Referencia del Espaol Actual) referido por la Real Academia Espaola, este ser empleado durante el anlisis de publicaciones, para determinar la frecuencia de utilizacin de palabras que componen los textos, un factor fundamental a tomar en cuenta durante el estudio estilomtrico. Otro aspecto importante a mencionar es la utilizacin de la biblioteca desarrollada por Jeff Potter (Jpotts18 (Jeff Potter) GitHub, n.d.), ubicada en un repositorio de Github, esta fue destinada para la extraccin de caractersticas fraseolgicas contenidas en los textos. La importancia de llevar a cabo un estudio de este tipo surge gracias a la necesidad de conocer el favoritismo de la ciudadana, la inclinacin poltica de nuestra poblacin objetivo, Ecuador. Puesto que tener acceso a esta informacin, segn (Proao et al., 2018) permite la toma de decisiones rpidas y acertadas, lo cual a su vez conlleva a una notable mejora en la propuesta de los candidatos, considerando que lo que generalmente buscan determinadas organizaciones o grupos polticos es enterarse del curso que toma la sociedad en tiempos de campaa electoral y de acuerdo a este dato, ofrecer a la poblacin lo que esta desea, lo anteriormente expuesto se da gracias al uso de los sistemas de informacin que sirven de apoyo con el proceso de toma de decisiones. A su vez, determinar haca qu partido poltico se inclina un individuo, comprende un impacto considerable en el mbito sociopoltico de una nacin, ya que estar al tanto de la afinidad poltica de una persona o usuario, mediante sus publicaciones de texto en la red social Twitter, permitir predecir elecciones presidenciales o, en su defecto, determinar el partido poltico con mayor popularidad o cantidad de partidarios en el Ecuador. El presente proyecto de investigacin pretende dar cumplimiento a la identificacin y clasificacin de ideologas polticas binarias y multiclases de usuarios polticos de Twitter en el Ecuador empleando tcnicas de estilometra, modelo Transformer ROBERTA-large-bne y mtodos de clasificacin en ML, es as como se obtendrn resultados de los cuales nos podremos valer para presentar de manera grfica y posteriormente determinar qu afinidades polticas son ms influyentes en las plataformas de red social y en nuestra poblacin.

 

Metodologa

Para este trabajo, se implement la investigacin bibliogrfica, ya que se va a recopilar informacin a partir de materiales publicados en lnea, o incluso recursos ms habituales, clsicos o tradicionales como libros, peridicos, informes o revistas referentes a investigaciones de clasificacin, entrenamiento y prediccin de texto.

Para el estudio de este trabajo de investigacin se emple algoritmos de aprendizaje supervisado enfocados en los mtodos de clasificacin, tales como Logistic Regression propuesto por (Berkson, 1944) el cual define como un mtodo de anlisis estadstico que predice resultados binarios, basndose en observaciones previas de un conjunto de datos, (Pranckevičius & Marcinkevičius, 2017) demostraron mediante resultados de clasificacin de multiclase que el mtodo Logistic Regression lograba mayor precisin en los resultados en comparacin con los mtodos de clasificacin Nave Bayes, Random Forest, Decision Tree y Support Vector Machine. Por otro lado, el mtodo Decision Tree introducido por (Quinlan, 1986) define como una forma de anlisis de variables mltiples las cuales permiten predecir, explicar, describir o clasificar un resultado. (Charbuty & Abdulazeez, 2021) Demostraron que el algoritmo Decision tree en contraste a otros algoritmos de clasificacin crean una coleccin de reglas eficiente y sencilla de entender realizadas en el rea de clasificacin de textos. Otro mtodo de clasificacin son los Random Forest propuesto por (Laboratories et al., 1995), donde (Shah et al., 2020) evaluaron diferentes algoritmos de clasificacin tales como Logistic Regression, Random Forests y K-Nearest Neighbour, teniendo resultados ptimos en el algoritmo Random Forests en la clasificacin de texto. Adems otro algoritmo de clasificacin es el Multilayer Perceptron propuesto por (Rosenblatt, 1958) el cual consta de tres tipos de capas: la capa de entrada, la capa de salida y la capa oculta donde la capa de entrada recibe la seal de entrada para ser procesada, la capa de salida realiza la prediccin y la clasificacin. Donde (Kamath et al., 2018) aplic el algoritmo Multilayer Perceptron enfocados en la clasificacin de texto, los resultados del algoritmo fueron prometedores tanto en documentos brutos como procesados.

Para dar cumplimiento a la investigacin experimental se implement un mtodo de extraccin de tweets para su posterior preprocesamiento, se extrajeron 3 diferentes tipos de caractersticas de texto, para el aprendizaje de los mtodos de clasificacin mencionados anteriormente y su posterior prediccin.

El mtodo para seguir en este trabajo de investigacin es el siguiente:

Figura 2: Mtodo implementado en la investigacin

 

Extraccin de datos

Para la extraccin de datos se utiliz la API Tweepy de Twitter logrando as la extraccin de 6000 tweets de 120 usuarios polticos del Ecuador, obteniendo 50 tweets por usuario, formando as dos datasets, uno destinado al entrenamiento constituido por 100 usuarios y 5000 tweets y otro conjunto de datos de prueba con 20 usuarios resultando en 1000 tweets, como se muestra en las Figuras 2 y 3.


 

Fuente: Para Train/entrenamiento:

Interfaz de usuario grfica, Texto, Chat o mensaje de texto

Descripcin generada automticamente

Figura 3: Extraccin 5000 tweets de 100 usuarios polticos.

 

Fuente: Para Test/prueba:

Figura 4: Extraccin 1000 tweets de 20 usuarios polticos.

 

Preprocesamiento de datos

Para ejecutar el respectivo preprocesamiento de datos, primero se llevar a cabo la limpieza de los tweets extrados tanto para el dataset train, como tambin para el dataset test, para ello se eliminar enlaces, retweets, emojis y caracteres especiales, y posteriormente se deber agrupar los 50 tweets de cada usuario en un nuevo dataset. En las Figuras 4 y 5 se muestran los dataset preprocesados.

Para train:

 

Interfaz de usuario grfica, Aplicacin

Descripcin generada automticamente

Figura 5: Preprocesamiento de 5000 tweets para 100 usuarios polticos.

 

Para test:

Imagen que contiene Interfaz de usuario grfica

Descripcin generada automticamente

Figura 6: Preprocesamiento de 1000 tweets para 20 usuarios polticos.

 

Extraccin de caractersticas

Para la extraccin de caractersticas de los tweets se usaron 3 tipos de tcnicas: Fraseolgicas (MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen), dada por la librera creada por Jeff Potter ubicada en un repositorio de Github, sumado al uso de palabras frecuentes tomada del Corpus de Referencia del Espaol Actual (CREA), y por ltimo el modelo de Transformer RoBERTa-large-bne. De las cuales se van a crear 3 vectores con sus caractersticas respectivas. Estos vectores se van a unir en un solo vector el cual se normaliza con el mtodo MinMaxScaler, para crear un vector final y poder realizar el entrenamiento mediante los mtodos clasificadores de Machine Learning

 

Figura 7: Vector final normalizado con caractersticas fraseolgicas, CREA y Transformer.

 

Entrenamiento de mtodos clasificadores

Para el entrenamiento de los mtodos clasificadores mediante el dataset de train, se aplic la librera Voting Classifier (hard voting classifier) de Scikit-Learn, para potenciar la clasificacin a manera de mtodo de conjunto heterogneo para lograr un mejor rendimiento predictivo, adems se obtuvieron mtricas de evaluacin utilizando Cross Validation. Los algoritmos usados para alimentar el clasificador por votos fueron Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting.

 

 

Texto

Descripcin generada automticamente

Figura 8: Ejecucin de Voting Classifier, Cross Validation y mtodos de la librera sklearn empleados en esta investigacin.

 

Prediccin

Para la prediccin mediante el dataset de train, se utiliz el mtodo predict, tal como lo muestra la siguiente imagen.

 

Figura 9: Prediccin a travs del mtodo predict

 

Resultados

Luego de realizar la valoracin de resultados, qued evidenciado que el algoritmo Gradient Boosting tuvo un alto desempeo con respecto a la etiqueta de ideologa binaria en comparacin con los otros algoritmos utilizados en este trabajo de investigacin respecto de la determinacin de inclinacin poltica-ideolgica de los usuarios en Twitter, este algoritmo produjo el ms alto resultado con un 60% de accuracy en el entrenamiento. Por otra parte, el algoritmo Multilayer Perceptron tuvo un mayor nivel con respecto a los dems algoritmos en la etiqueta de ideologa multiclase, reflejando un porcentaje de 37%, los algoritmos empleados, en conjunto con sus resultados, se detallan a continuacin en las siguientes tablas.

 

Grfico, Grfico de lneas

Descripcin generada automticamente

Figura 10: Mtricas de los algoritmos clasificadores para ideologa binaria.

 

Grfico, Grfico de lneas

Descripcin generada automticamente

Figura 11: Mtricas de los algoritmos clasificadores para ideologa multiclase.

 

Finalizado el entrenamiento de nuestro dataset train, se realizaron pruebas con el dataset test de los cuales obtuvimos los siguientes resultados de prediccin:

Figura 12: Resultados de prediccin para ideologa binaria.

 

Donde la precisin obtenida por parte de la etiqueta de ideologa binaria en el dataset test fue un 75%.

 

Figura 13: Resultados de prediccin para ideologa multiclase.

 

Donde la precisin obtenida por la etiqueta de ideologa multiclase en el dataset test fue un 20%.

Terminando as el proceso de entrenamiento y prediccin para posteriormente crear un archivo dataframe con las predicciones hechas por el algoritmo y compararlo con el dataset test original, como se muestra en la siguiente figura.

 

Figura 14: Dataset Test ubicado en el lado izquierdo, la Prediccin del lado derecho.

 

Los resultados expuestos anteriormente, demuestran que los algoritmos adoptados en este trabajo de investigacin logran cumplir el funcionamiento por el cual fueron elegidos en un principio, la cual consiste en la clasificacin de Tweets y posterior prediccin. Lograron resultados muy favorables alcanzando un rendimiento ptimo para los algoritmos de clasificacin especialmente en ideologa binaria, sino adems se consigui corroborar la hiptesis planteada inicialmente la cual plantea la posibilidad de revelar la ideologa poltica por la cual se inclina una persona de acuerdo con el anlisis de sus tweets.

 

Discusin

Para poder predecir la afinidad poltica de las personas o usuarios, mediante sus tweets es necesario tener presente que las caractersticas estilomtricas de cada persona son nicas, y por ende, se deber llevar a cabo un estudio exhaustivo de dichas caractersticas, es ah donde la implementacin de tcnicas estilomtricas para Machine Learning nos facilitan el trabajo para obtener dichas caractersticas, por tanto se decidi emplear el modelo Transformer RoBERTa-large-bne, caractersticas fraseolgicas y de palabras de uso frecuente, para as poder enriquecer las caractersticas que servirn como suministro a los modelos de clasificacin propuestos en este proyecto de investigacin, permitiendo as potenciar la prediccin de la afinidad poltica de los usuarios para obtener mejores resultados.

Teniendo en cuenta tambin que, si se logra entrenar mediante un dataset ms extenso, podran mejorar significativamente los resultados de la prediccin, esto se debe a que el nivel de precisin de los modelos a entrenar es directamente proporcional a la cantidad de datos y caractersticas estilomtricas extradas de los tweets/textos, esto por lo tanto reflejar una notable variacin positiva en los resultados. Por otra parte, se ha usado 3 tipos de caractersticas estilomtricas, pero esto no significa que sean la nica o mejor opcin, es muy probable que se obtengan mejores resultados con otros tipos de caractersticas que beneficien en el entrenamiento y sean ms precisos en la prediccin.

 

Conclusiones

Con el anlisis de contribuciones cientficas relacionadas al estado del arte de los modelos Transformer y mtodos de clasificacin de Machine Learning para estilometra, se determin que los algoritmos clasificadores Logistic Regression, Decision Tree, Multilayer Perceptron, Gradient Booster y Random Forest tuvieron un impacto positivo en cuanto a los resultados para la prediccin poltica mediante la clasificacin de texto, dando como el mejor resultado para ideologa binaria al clasificador Gradient Boosting con un 60%, seguido de Logistic Regression con un 54%, Multilayer Perceptron con un 53%, Decision Tree con un 52%, y por ltimo Random Forests con un 45%, en cuanto a la ideologa multiclase Multilayer Perceptron fue el ms ptimo con un 37%, seguido de Random Forests con un 36%, Logistic Regression con un 35%, Gradient Boosting con un 26%, y por ltimo Decision Tree con un 22%, evidenciando as que los clasificadores Gradient Boosting y Multilayer Perceptron fueron los ms recomendable y ptimo al momento de predecir la afinidad poltica mediante tweets. Adems, estos resultados pueden ser mejorados enriqueciendo los tweets del dataset entrenado. Importante de sealar es que al tratarse de tema poltico y por los resultados obtenidos se hace evidente experimentar con otras caractersticas estilomtricas como pudiera ser el uso de un lexicn de palabras de uso poltico, seguramente se obtendran mejores resultados en especial en ideologa multiclase.

 

Referencias

  1. Berkson, J. (1944). Application of the Logistic Function to Bio-Assay. Journal of the American Statistical Association, 39(227), 357365. https://doi.org/10.1080/01621459.1944.10500699
  2. Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 2028. https://doi.org/10.38094/jastt20165
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference (Vol. 1).
  4. Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences. 30, 681694. https://doi.org/10.1007/s11023-020-09548-1
  5. jpotts18 (Jeff Potter) GitHub. (n.d.). Retrieved August 25, 2022, from https://github.com/jpotts18
  6. Kamath, C. N., Bukhari, S. S., & Dengel, A. (2018). Comparative study between traditional machine learning and deep learning approaches for text classification. Proceedings of the ACM Symposium on Document Engineering 2018, DocEng 2018. https://doi.org/10.1145/3209280.3209526
  7. Kingsley Zipf, G. (1932). Selected Studies of the Principle of Relative Frequency in Language. Selected Studies of the Principle of Relative Frequency in Language. https://doi.org/10.4159/HARVARD.9780674434929/HTML
  8. Laboratories, T. B., Avenue, M., & Murray, U. H. (1995). Random Decision Forests.
  9. Mosteller, F., & Wallace, D. L. (2012). Inference in an Authorship Problem. Http://Dx.Doi.Org/10.1080/01621459.1963.10500849, 58(302), 275309. https://doi.org/10.1080/01621459.1963.10500849
  10. Pranckevičius, T., & Marcinkevičius, V. (2017). Comparison of Naive Bayes, Random Forest, Decision Tree, Support Vector Machines, and Logistic Regression Classifiers for Text Reviews Classification. Baltic Journal of Modern Computing, 5(2), 221232. https://doi.org/10.22364/bjmc.2017.5.2.05
  11. Proao, M., Orellana, S., & Martillo, I. (2018). Los sistemas de informacin y su importancia en la transformacin digital de la empresa actual. Espacios, 39(45), 37.
  12. Quinlan, J. R. (1986). Induction of Decision Trees. In Machine Learning (Vol. 1).
  13. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386408.
  14. Shah, K., Patel, H., Sanghvi, D., & Shah, M. (2020). A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification. Augmented Human Research, 5(1). https://doi.org/10.1007/s41133-020-00032-0

 

 

 

 

 

 

 

2022 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).x

 

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/