Mecanismos para el procesamiento de big data. Limpieza, transformación y análisis de Datos

Ricardo Orlando Malla Valdiviezo, Oscar Alexander López Gorozabel, Jorge Armando Arévalo Indio, Cesar Humberto Tóala Briones

Resumen


Actualmente, la masificación de información en Internet, ha provocado el desarrollo de nuevas herramientas de análisis, por lo que se ha vuelto indispensable la adquisición de mecanismos sistemáticos que permitan administrar eficientemente la Big Data, todo esto con el fin de garantizar que las organizaciones y empresas puedan tomar decisiones relacionadas con un previo y efectivo análisis de datos. La Big Data es conocida como una combinación de datos estructurados, semiestructurados y no estructurados, los cuales son recopilados por las organizaciones, para luego ser procesados y presentados de manera pública o privada, posteriormente estos datos pueden usarse en proyectos de aprendizaje automático, modelado predictivo y otras aplicaciones de análisis avanzado. Se ha evidenciado que, en la actualidad la mayor parte de los datos no están estructurados, lo que dificulta la optimización de las tareas de procesamiento de datos y dado que el proceso de generación de datos no tiene fin, los procesos de recopilación y administración de información se han convertido en actividades más complejas. La presente investigación es de carácter analítico-sintético, debido a que se descomponen las partes a estudiar, realizándose un análisis y síntesis sobre la definición de la Big Data, tipos y mecanismos utilizados en el procesamiento de datos, además se presentan diversas herramientas utilizadas para administrar información voluminosa, asi mismo se identifican los algoritmos más eficientes para el procesamiento de información acorde a las necesidades de las organizaciones. Luego de integrar las partes estudiadas, se genera como resultado, una guía actualizada sobre los algoritmos y aplicaciones a utilizar en cada fase del procesamiento de datos, con el objetivo de que se facilite la toma de decisiones en las organizaciones.


Palabras clave


Big Data; Mecanismos; Análisis de Datos; Herramientas de análisis; Algoritmos de procesamiento.

Texto completo:

PDF HTML XML

Referencias


Aguilar Aguilar, I., Cuevas Cruz, F., Duran Martínez, P., García Carmen, E., Hernández Romero, A., Mateos Casimiro, E., Ortega Sánchez, J., Retana Contreras, J., Ruiz Macedonio, J., Segundo Romero, C., Solís Colin, I., Ugalde Zaldivar, J., Vázquez Clemente, B., Vázquez Ramírez, A. & Yépez Martínez, D. (2022). Antología gestión y análisis de Big Data LIAD6 2022-A. Recuperado desde: http://ri.uaemex.mx/handle/20.500.11799/137910

Arias, W. (2019). BIG DATA: Extraer, transformar y cargar los datos, Instituto Internacional de Ciencias de Datos, https://i2ds.org/2016/05/04/big-data-extraer-transformar-y-cargar-los-datos/

Berzal, F. (2018). Clustering jerárquico. DECSAI. https://elvex.ugr.es/idbis/dm/slides/42%20Clustering%20-%20Hierarchical.pdf

Berzal, F. (2020). Clustering basado en densidad. DECSAI. https://elvex.ugr.es/idbis/dm/slides/43%20Clustering%20-%20Density.pdf

Camargo Vega, J., Camargo Ortega, J. & Joyanes Aguilar, L. (2015). Conociendo Big Data. Revista Facultad de Ingeniería, 24(38), pp. 63–77. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-11292015000100006

Carranza, A. (2022). Data Cleansing: averigua cómo limpiar datos erróneos y conservar información valiosa, https://www.crehana.com/blog/transformacion-digital/data-cleansing/

García, I. (2022). Big Data en seguros. NowoTech. https://nowo.tech/formacion/big-data-en-seguros/

García, S., Ramírez, S., Luengo, J. & Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos, Departamento de Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada (España), 237(1), pp. 17-23, https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/2133_Nv237-Digital-sramirez.pdf

Giner, G. (2018). Minería de datos: ¿qué relación tiene con el Big data?. Business Revista Digital. https://www.escueladenegociosydireccion.com/revista/business/big-data/la-mineria-de-datos-en-el-big-data/

Gutiérrez, J. & Vigo, V. (2021). Modelo de aprendizaje automatizado del proceso de venta de productos financieros en un Call center. https://repositorio.ulima.edu.pe/handle/20.500.12724/14344

Hernández Leal, E., Duque Méndezy N., Moreno Cadavid, J. (2017). Big Data: una exploración de investigaciones, tecnologías y casos de aplicación. TecnoLógicas, 20(39), pp. 15-38. https://www.redalyc.org/journal/3442/344251476001/html/

Jianan, L. (2022). Understanding Mean Shift Clustering and Implementation with Python. Towards Data Science, https://towardsdatascience.com/understanding-mean-shift-clustering-and-implementation-with-python-6d5809a2ac40

Liarte Muñoz, J. (2019). Análisis de datos de las organizaciones. Big data. TFG-Facultad de Ciencias de la Empresa, pp. 1-45. https://repositorio.upct.es/bitstream/handle/10317/7754/tfg-lia-ana.pdf?sequence=1&isAllowed=y

Flores Avendaño, P. & Villacís Vera, A. (2017). Análisis comparativo de las herramientas de Big data en la Facultad de Ingeniería de la Pontificia Universidad Católica del Ecuador. http://repositorio.puce.edu.ec/handle/22000/14119

Rahman, A. (2019). What is Data Cleaning? How to Process Data for Analytics and Machine Learning Modeling?. Towards Data Science, https://towardsdatascience.com/what-is-data-cleaning-how-to-process-data-for-analytics-and-machine-learning-modeling-c2afcf4fbf45

Ramírez, L. (2023). Algoritmo k-means: ¿Qué es y cómo funciona?. Business & Tech. https://www.iebschool.com/blog/algoritmo-k-means-que-es-y-como-funciona-big-data/

Srikanth, B. & Reddy, V. (2016). Efficiency of Stream Processing Engines for Processing BIGDATA Streams. Indian Journal of Science and Technology. https://www.researchgate.net/publication/301797425_Efficiency_of_Stream_Processing_Engines_for_Processing_BIGDATA_Streams

Szell, C. (2020). Herramientas de la transformación digital – El ETL. Conectamagazine, https://www.conectasoftware.com/magazine/conector/herramientas-de-la-transformacion-digital-el-etl/

Viswarupan, N. (2017). K-Means Data Clustering. Towards Data Science, https://towardsdatascience.com/k-means-data-clustering-bce3335d2203

Zaheer A., Zaynah A. (2019). On big data, artificial intelligence and smart cities, Cities, 89(1), pp. 80-91, https://www.sciencedirect.com/science/article/pii/S0264275118315968




DOI: https://doi.org/10.23857/pc.v8i4.5457

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/