Mecanismos para el procesamiento de big data. Limpieza, transformación y análisis de Datos
Resumen
Actualmente, la masificación de información en Internet, ha provocado el desarrollo de nuevas herramientas de análisis, por lo que se ha vuelto indispensable la adquisición de mecanismos sistemáticos que permitan administrar eficientemente la Big Data, todo esto con el fin de garantizar que las organizaciones y empresas puedan tomar decisiones relacionadas con un previo y efectivo análisis de datos. La Big Data es conocida como una combinación de datos estructurados, semiestructurados y no estructurados, los cuales son recopilados por las organizaciones, para luego ser procesados y presentados de manera pública o privada, posteriormente estos datos pueden usarse en proyectos de aprendizaje automático, modelado predictivo y otras aplicaciones de análisis avanzado. Se ha evidenciado que, en la actualidad la mayor parte de los datos no están estructurados, lo que dificulta la optimización de las tareas de procesamiento de datos y dado que el proceso de generación de datos no tiene fin, los procesos de recopilación y administración de información se han convertido en actividades más complejas. La presente investigación es de carácter analítico-sintético, debido a que se descomponen las partes a estudiar, realizándose un análisis y síntesis sobre la definición de la Big Data, tipos y mecanismos utilizados en el procesamiento de datos, además se presentan diversas herramientas utilizadas para administrar información voluminosa, asi mismo se identifican los algoritmos más eficientes para el procesamiento de información acorde a las necesidades de las organizaciones. Luego de integrar las partes estudiadas, se genera como resultado, una guía actualizada sobre los algoritmos y aplicaciones a utilizar en cada fase del procesamiento de datos, con el objetivo de que se facilite la toma de decisiones en las organizaciones.
Palabras clave
Referencias
Aguilar Aguilar, I., Cuevas Cruz, F., Duran Martínez, P., García Carmen, E., Hernández Romero, A., Mateos Casimiro, E., Ortega Sánchez, J., Retana Contreras, J., Ruiz Macedonio, J., Segundo Romero, C., Solís Colin, I., Ugalde Zaldivar, J., Vázquez Clemente, B., Vázquez Ramírez, A. & Yépez Martínez, D. (2022). Antología gestión y análisis de Big Data LIAD6 2022-A. Recuperado desde: http://ri.uaemex.mx/handle/20.500.11799/137910
Arias, W. (2019). BIG DATA: Extraer, transformar y cargar los datos, Instituto Internacional de Ciencias de Datos, https://i2ds.org/2016/05/04/big-data-extraer-transformar-y-cargar-los-datos/
Berzal, F. (2018). Clustering jerárquico. DECSAI. https://elvex.ugr.es/idbis/dm/slides/42%20Clustering%20-%20Hierarchical.pdf
Berzal, F. (2020). Clustering basado en densidad. DECSAI. https://elvex.ugr.es/idbis/dm/slides/43%20Clustering%20-%20Density.pdf
Camargo Vega, J., Camargo Ortega, J. & Joyanes Aguilar, L. (2015). Conociendo Big Data. Revista Facultad de Ingeniería, 24(38), pp. 63–77. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-11292015000100006
Carranza, A. (2022). Data Cleansing: averigua cómo limpiar datos erróneos y conservar información valiosa, https://www.crehana.com/blog/transformacion-digital/data-cleansing/
García, I. (2022). Big Data en seguros. NowoTech. https://nowo.tech/formacion/big-data-en-seguros/
García, S., Ramírez, S., Luengo, J. & Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos, Departamento de Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada (España), 237(1), pp. 17-23, https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/2133_Nv237-Digital-sramirez.pdf
Giner, G. (2018). Minería de datos: ¿qué relación tiene con el Big data?. Business Revista Digital. https://www.escueladenegociosydireccion.com/revista/business/big-data/la-mineria-de-datos-en-el-big-data/
Gutiérrez, J. & Vigo, V. (2021). Modelo de aprendizaje automatizado del proceso de venta de productos financieros en un Call center. https://repositorio.ulima.edu.pe/handle/20.500.12724/14344
Hernández Leal, E., Duque Méndezy N., Moreno Cadavid, J. (2017). Big Data: una exploración de investigaciones, tecnologías y casos de aplicación. TecnoLógicas, 20(39), pp. 15-38. https://www.redalyc.org/journal/3442/344251476001/html/
Jianan, L. (2022). Understanding Mean Shift Clustering and Implementation with Python. Towards Data Science, https://towardsdatascience.com/understanding-mean-shift-clustering-and-implementation-with-python-6d5809a2ac40
Liarte Muñoz, J. (2019). Análisis de datos de las organizaciones. Big data. TFG-Facultad de Ciencias de la Empresa, pp. 1-45. https://repositorio.upct.es/bitstream/handle/10317/7754/tfg-lia-ana.pdf?sequence=1&isAllowed=y
Flores Avendaño, P. & Villacís Vera, A. (2017). Análisis comparativo de las herramientas de Big data en la Facultad de Ingeniería de la Pontificia Universidad Católica del Ecuador. http://repositorio.puce.edu.ec/handle/22000/14119
Rahman, A. (2019). What is Data Cleaning? How to Process Data for Analytics and Machine Learning Modeling?. Towards Data Science, https://towardsdatascience.com/what-is-data-cleaning-how-to-process-data-for-analytics-and-machine-learning-modeling-c2afcf4fbf45
Ramírez, L. (2023). Algoritmo k-means: ¿Qué es y cómo funciona?. Business & Tech. https://www.iebschool.com/blog/algoritmo-k-means-que-es-y-como-funciona-big-data/
Srikanth, B. & Reddy, V. (2016). Efficiency of Stream Processing Engines for Processing BIGDATA Streams. Indian Journal of Science and Technology. https://www.researchgate.net/publication/301797425_Efficiency_of_Stream_Processing_Engines_for_Processing_BIGDATA_Streams
Szell, C. (2020). Herramientas de la transformación digital – El ETL. Conectamagazine, https://www.conectasoftware.com/magazine/conector/herramientas-de-la-transformacion-digital-el-etl/
Viswarupan, N. (2017). K-Means Data Clustering. Towards Data Science, https://towardsdatascience.com/k-means-data-clustering-bce3335d2203
Zaheer A., Zaynah A. (2019). On big data, artificial intelligence and smart cities, Cities, 89(1), pp. 80-91, https://www.sciencedirect.com/science/article/pii/S0264275118315968
DOI: https://doi.org/10.23857/pc.v8i4.5457
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/