Mecanismos para el procesamiento de big data. Limpieza, transformacin y anlisis de Datos

Mechanisms for the processing of big data. Data cleaning, transformation and analysis

Negociao para o processamento de big data . Limpeza, transformao e anlise de dados

Ricardo Orlando Malla- Valdiviezo I
ricardo.malla@utm.edu.ec
https://orcid.org/0000-0003-0841-7495
        
,Oscar Alexander Lpez -Gorozabel II
oscar.lopez@utm.edu.ec
https://orcid.org/0000-0002-0640-9953
Jorge Armando Arvalo- Indio III
jorge.arevalo@utm.edu.ec
https://orcid.org/0009-0002-7257-3337
        
,Cesar Humberto Tala- Briones IV
cesar.toala@utm.edu.ec
https://orcid.org/0009-0008-8975-6651
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: ricardo.malla@utm.edu.ec

 

 

 

Ciencias de la Computacin

Artculo de Investigacin

* Recibido: 23 de febrero de 2023 *Aceptado: 14 de marzo de 2023 * Publicado: 01 de abril de 2023

 

I.                    Magister en Informtica Empresarial UNIANDES, Ing. En Sistemas Informticos Universidad Tcnica de Manab, Docente Universidad Tcnica de Manab, Ex - Coordinador Zonal de TIC MSP Zona 4, Ex - Coordinador de Metas Institucionales y Asesor Educativo MINEDUC Zona 4, Sub Secretario de atencin intergeneracional MIES.

II.                  Ingeniero de Sistemas Informticos. Licenciado en Trabajo Social. Mster en Ingeniera de Software y Sistemas Informticos por la Universidad Internacional de la Rioja. Docente de la Universidad Tcnica de Manab. Portoviejo, Ecuador.

III.                Ingeniero En Sistemas Informticos, Magister En Educacin Informtica, Analista Distrital de Soporte Tcnico de la Direccin Distrital 13D09 Pajn Salud, Docente de la Universidad tcnica de Manab. Portoviejo, Ecuador

IV.                Ingeniero en Sistemas Informticos, Analista de planificacin institucional en la Universidad Tcnica de Manab, Magister en informtica empresarial por la UNIANDES y un Mster Universitario en Evaluacin de la Calidad y Procesos de Certificacin en Educacin Superior por la Universidad Internacional de la Rioja.


Resumen

Actualmente, la masificacin de informacin en Internet, ha provocado el desarrollo de nuevas herramientas de anlisis, por lo que se ha vuelto indispensable la adquisicin de mecanismos sistemticos que permitan administrar eficientemente la Big Data, todo esto con el fin de garantizar que las organizaciones y empresas puedan tomar decisiones relacionadas con un previo y efectivo anlisis de datos. La Big Data es conocida como una combinacin de datos estructurados, semiestructurados y no estructurados, los cuales son recopilados por las organizaciones, para luego ser procesados y presentados de manera pblica o privada, posteriormente estos datos pueden usarse en proyectos de aprendizaje automtico, modelado predictivo y otras aplicaciones de anlisis avanzado. Se ha evidenciado que, en la actualidad la mayor parte de los datos no estn estructurados, lo que dificulta la optimizacin de las tareas de procesamiento de datos y dado que el proceso de generacin de datos no tiene fin, los procesos de recopilacin y administracin de informacin se han convertido en actividades ms complejas. La presente investigacin es de carcter analtico-sinttico, debido a que se descomponen las partes a estudiar, realizndose un anlisis y sntesis sobre la definicin de la Big Data, tipos y mecanismos utilizados en el procesamiento de datos, adems se presentan diversas herramientas utilizadas para administrar informacin voluminosa, asi mismo se identifican los algoritmos ms eficientes para el procesamiento de informacin acorde a las necesidades de las organizaciones. Luego de integrar las partes estudiadas, se genera como resultado, una gua actualizada sobre los algoritmos y aplicaciones a utilizar en cada fase del procesamiento de datos, con el objetivo de que se facilite la toma de decisiones en las organizaciones.

Palabras Clave: Big Data; Mecanismos; Anlisis de Datos; Herramientas de anlisis;Algoritmos de procesamiento.

 

Abstract

Currently, the massification of information on the Internet has led to the development of new analysis tools, so it has become essential to acquire systematic mechanisms to efficiently manage Big Data, all this in order to ensure that organizations and companies can make decisions related to a previous and effective data analysis. Big Data is known as a combination of structured, semi-structured and unstructured data, which are collected by organizations, and then processed and presented publicly or privately, then these data can be used in machine learning projects, predictive modeling and other advanced analytics applications. It has been evidenced that, at present most of the data are not structured, which makes it difficult to optimize data processing tasks and since the data generation process is never ending, the information collection and management processes have become more complex activities. The present research is of an analytical-synthetic nature, due to the fact that the parts to be studied are decomposed, performing an analysis and synthesis on the definition of Big Data, types and mechanisms used in data processing, in addition to presenting various tools used to manage voluminous information, as well as identifying the most efficient algorithms for processing information according to the needs of organizations. After integrating the parts studied, the result is an updated guide on the algorithms and applications to be used in each phase of data processing, with the objective of facilitating decision making in organizations.

Keywords: Big Data; Mechanisms; Data Analysis; Analysis tools; Processing algorithms.

 

Resumo

Actualmente, a massificao da informao na Internet levou ao desenvolvimento de novas ferramentas de anlise, pelo que se tornou essencial adquirir mecanismos sistemticos para gerir eficazmente os Grandes Dados, tudo isto para garantir que as organizaes e empresas possam tomar decises relacionadas com uma anlise prvia e eficaz dos dados. Big Data conhecido como uma combinao de dados estruturados, semi-estruturados e no estruturados, que so recolhidos por organizaes e depois processados e apresentados pblica ou privadamente, e podem ser utilizados em projectos de aprendizagem de mquinas, modelao preditiva e outras aplicaes analticas avanadas. Tornou-se evidente que, actualmente, a maioria dos dados no est estruturada, o que dificulta a optimizao das tarefas de processamento de dados e, uma vez que o processo de gerao de dados nunca termina, os processos de recolha e gesto da informao tornaram-se mais complexos. Esta investigao de natureza analtico-sinttica, devido ao facto de as partes a estudar serem discriminadas, realizando uma anlise e sntese sobre a definio de Grandes Dados, tipos e mecanismos utilizados no processamento de dados, para alm de apresentar vrias ferramentas utilizadas para gerir informao volumosa, bem como identificar os algoritmos mais eficientes para o processamento da informao de acordo com as necessidades das organizaes. Aps a integrao das partes estudadas, gerado como resultado, um guia actualizado sobre os algoritmos e aplicaes a utilizar em cada fase do processamento de dados, com o objectivo de facilitar a tomada de decises nas organizaes.

Palavras-chave: Grandes Dados, Mecanismos, Anlise de Dados, Ferramentas de Anlise, Algoritmos de Processamento, Algoritmos de Processamento.

 

Introduccin

Despus del surgimiento del Internet, se han venido dado avances muy significativos en el mbito de las telecomunicaciones, educacin, negocios y entretenimiento, todas estas actividades han generado que exista gran cantidad de informacin, con diferentes estructuras, cuyo volumen de datos, complejidad y velocidad de crecimiento poseen caractersticas imposibles de procesar a travs de modelos y herramientas tradicionales, lo que dificulta su procesamiento. Por otra parte, Zaheer & Zaynah (2019), afirman que la generacin de informacin masiva en Internet o ms conocida como Big Data suele ser incontrolable pero muy necesarias para las empresas en la actualidad, por lo cual se requiere de herramientas tecnolgicas eficientes e inclusive de algoritmos que permitan mejorar el estudio de los datos (p. 2).

El anlisis de Big Data en la actualidad toma cada vez ms importancia en los mercados actuales, debido a su increble utilidad, sobre todo en el entorno empresarial. Gracias a la difusin de los datos, el internet y las nuevas tecnologas, las empresas estn recolectando constantemente un mayor volumen de informacin en tiempo real, tales como: datos de operacin, clientes, proveedores y de todos los frentes de operaciones de las mismas. Cuando los datos llegan a integrarse, existen posibilidades de analizar y crear soluciones que permitan mejorar los procesos de toma de decisiones, es decir, se mejora la competitividad de las empresas. El estudio de los datos puede abaratar costos a las empresas, crear nuevos productos o servicios, entre otros.

Segn Hernndez, Duque & Moreno (2017), manifiesta que:

Para la realizacin del manejo de los datos es indispensable contar con dos componentes de suma importancia como lo son el hardware y el software; del lado del hardware se cuenta con tecnologas de alto nivel como arquitecturas de MPP, que agiliza el procesamiento de los datos y del lado del software aparecen las tecnologas que ayudan en el correcto manejo de los datos no estructurados o semiestructurados; para estas necesidades se acude a las tecnologas como Spark o Hadoop, que son especialmente diseadas para el manejo de informacin estructurada, no estructurada o semiestructurada (p. 18).

En la presente investigacin se pretende identificar las diversas herramientas utilizadas para recopilacin, transformacin y anlisis de informacin voluminosa, asi mismo se estudian las caractersticas de los algoritmos ms eficientes para el procesamiento de informacin con el objetivo de elaborar una gua metdica para el procesamiento de datos en las organizaciones.

 

Metodologa

En el presente trabajo se utilizar el mtodo analtico-sinttico, debido a que se descomponen todas las partes que conforman el objeto de estudio, luego se procede a estudiar cada una de las partes de manera individual y ms adelante se integran dichas partes con el fin de estudiarlas de manera holstica e integral. Las partes a estudiar en esta investigacin son las herramientas y algoritmos utilizados en las diversas fases del procesamiento de datos; dicha informacin es recopilada a travs de la base de datos Google Acadmico y de los distintos estudios realizados en revistas cientficas indexadas como ScieLo, Redalyc, Latindex, haciendo uso de palabras claves como: Big Data, Herramientas de anlisis, Algoritmos para tratamiento de datos, entre otros.

 

Introduccin al procesamiento de datos

Para Liarte (2019), el procesamiento de datos es el proceso de recopilar, limpiar, transformar y analizar informacin valiosa desde diversas fuentes, en la actualidad las empresas suelen utilizar tcnicas de aprendizaje automtico y estadsticas para recopilar informacin. El procesamiento de datos surge como una disciplina tcnica a partir del apogeo del trmino Big Data que est relacionado a la informacin a gran escala, el procesamiento de datos posee una estructura ordenada en su aplicacin, segn (Garca et al, 2016) existen fases indispensables en el procesamiento de los datos, estas son:

         Limpieza de datos.

         Transformacin de datos.

         Anlisis de datos.

 

Limpieza de datos

Carranza (2022), la define como un proceso de correccin o eliminacin de datos formateados de manera incorrecta, pudiendo estar duplicados o incompletos dentro de un gran conjunto de datos, el proceso de limpieza suele ser ejecutado desde software especializado, estos pueden ser:

         Apache Spark: software de cdigo abierto que permite la limpieza y transformacin de datos a gran escala de manera eficiente, incluye mdulos para la administracin de datos, como: Spark SQL y DataFrames.

         Talend: software de cdigo abierto que ofrece una amplia gama de funciones de limpieza de datos, pudindolos integrar desde diferentes fuentes (csv, bases de datos, entre otros).

         Databricks: Plataforma basada en la nube, dedicada a la limpieza y transformacin de datos a gran escala, incorpora mdulos de anlisis como: Spark DataFrames.

         Trifacta: Herramienta Online, donde los usuarios pueden explorar y transformar en tiempo real, grandes volmenes de datos, en comparacin a las anteriores Trifacta posee una interfaz visual Drag and Drop (arrastrar y soltar) que facilita las actividades a los usuarios sin conocimientos tcnicos.

         Informtica Power Center: Herramienta de integracin para datos empresariales, con funciones de limpieza y normalizacin de datos a gran escala.

Grfico 1: Representacin de limpieza de datos.

Realizado por: Rahman (2019).

 

Transformacin de datos

Luego de la limpieza de datos o Data Cleasing se procede a transformar los datos, por ende (Aguilar et al, 2022), define los siguientes pasos, para una transformacin correcta:

-          Compresin de datos, se transforman los datos a un formato en que se puedan gestionar de manera ms sencilla y eficiente.

-          Cifrado de datos, se traducen los datos a otro cdigo para poder protegerlos.

Segn Arias (2016), el proceso de transformacin de datos se:

Torna mucho ms complejo cuando se tiene una exuberante cantidad de datos no estructurados, por lo que el proceso Extraer, Transformar y Cargar (en adelante ETL) suele convertirse en un cuello de botella, costoso de administrar y con un bajo desempeo. Por lo general, el proceso de transformacin de datos se encarga de convertir el formato de los datos y ajustarlo a los requisitos de la fuente de destino.

Actualmente en el mercado, existen herramientas muy sofisticadas para la transformacin de datos, (Szell, 2020) menciona algunas de las ms usadas en el sector empresarial:

         Apache Hadoop: Framework de cdigo abierto que permite a los usuarios procesar y almacenar grandes volmenes de datos de manera distribuida. Hadoop realiza la transformacin de datos a travs de sus componentes: HDFS y MapReduce.

         Apache Spark: Framework de cdigo abierto ms utilizado en las industrias para el procesamiento y transformacin de datos.

         Apache Hive: Motor de consulta SQL para Hadoop, permite interactuar con grandes volmenes de datos.

         Apache Pig: Motor de programacin, permite el procesamiento de grandes volmenes de datos en Hadoop.

         Apache Flink: Apache Framework para el procesamiento de los datos en tiempo real.

         Google Cloud Dataflow: Herramienta de procesamiento de datos basada en la nube de Google.

En el transcurso del anlisis de las diversas herramientas existentes actualmente, se determina que la herramienta ms eficiente es Spark debido a su soporte para diferentes sistemas operativos y sobre cualquier plataforma en la nube, pudiendo ser: Amazon EC2/S3 o Google Cloud. Spark ofrece anlisis de datos para campaas de marketing, sensores de IoT, aprendizaje automtico y sitios de redes sociales en tiempo real. Adems, Spark es que es compatible con una amplia variedad de lenguajes de programacin, lo que lo hace accesible a una amplia gama de usuarios. Por otra parte, Spark ofrece una API muy completa y fcil de usar para el procesamiento de datos, lo que lo hace ideal para una amplia gama de aplicaciones, desde la ciencia de datos hasta la inteligencia artificial.

En general, Spark es una de las mejores herramientas para el procesamiento y transformacin de datos, gracias a sus caractersticas avanzadas y a la amplia gama de funcionalidades que ofrece.


Grfico 2: Comparacin de regresin logstica entre Hadoop y Spark.

Realizado por: Srikanth & Reddy (2016).

 

Anlisis de datos

Debido a la masiva y diversa cantidad de informacin, se deben adoptar diversas tecnologas y tcnicas analticas, necesarias para la extraccin y procesamiento de datos relevantes. Dentro de este marco existen varias tcnicas estadsticas, reconocimiento de patrones, algoritmos matemticos, algoritmos de machine learning, sin embargo, se identifica como principal tcnica a la minera de datos, debido a que permite implementar algoritmos que son capaces de extraer datos masivos y con mucha calidad.

Para Giner (2018), la minera de datos se caracteriza por combinar mtodos de estadstica y machine learning con la gestin de bases de datos con el fin de identificar patrones en grandes conjuntos de datos. Dentro de la minera de datos, existen diversos algoritmos que son capaces de crear distintas formas de captar y extraer los datos para optimizar as el proceso de anlisis. Un objetivo principal de esta investigacin es identificar los algoritmos ms utilizados y eficientes en el mundo de la Big Data y acorde a (Gutirrez & Vigo, 2021), estos son:

         MapReduce: Algoritmo distribuido que permite procesar grandes volmenes de datos en paralelo.

         Algoritmos de aprendizaje automtico: Algunos de estos son: Naive Bayes, rboles de Decisin, Random Forest, SVM (Support Vector Machines), entre otros, estos algoritmos se mejoran automticamente basndose en la experiencia.

         Regresin Lineal: Algoritmo es muy til para predecir valores futuros a partir de datos histricos.

         Algoritmos de Clustering: Algoritmos que permiten agrupar objetos o personas por similitud y se utilizan para descubrir patrones en grandes conjuntos de datos.

         Algoritmos de minera de datos: Tcnicas que combinan mtodos de estadstica y machine learning con la gestin de bases de datos para identificar patrones en grandes conjuntos de datos.

Luego de investigar de manera exhaustiva sobre los diferentes algoritmos para el anlisis de datos, se procede a identificar a los algoritmos de Clustering como los ms ampliamente utilizados y eficientes. Estos algoritmos funcionan reuniendo objetos o personas similares en grupos o clsteres, con el objetivo de que los miembros del clster compartan caractersticas similares y los clsteres sean lo ms diferenciados posible. El proceso de Clustering se realiza a travs de la identificacin de patrones en los datos, lo cual permite agrupar objetos similares en un solo clster y objetos diferentes en clsteres distintos. Adems, los algoritmos de bsqueda son ampliamente utilizados en la actualidad y son los que estn mejor probados para establecer patrones a partir de datos previamente establecidos.

 

Algoritmos de clustering

Algoritmo K-Means

Es uno de los ms populares y se utiliza ampliamente en la industria, este algoritmo trabaja dividiendo los datos en k grupos o clsteres, donde k es un nmero previamente establecido.

Ramrez (2023), define a este algoritmo como uno de los ms utilizados y consiste en dividir el conjunto de datos en k clsteres, donde k es un nmero predefinido por el usuario. El algoritmo K-Means es uno de los algoritmos de clustering ms utilizados y ampliamente conocidos en la industria de la minera de datos. Este algoritmo funciona dividiendo un conjunto de datos en k grupos (clsteres) basados en las caractersticas similares de los objetos incluidos en ellos. La finalidad del algoritmo es maximizar la diferencia entre los clsteres y minimizar la similitud dentro de ellos.

El algoritmo K-Means se realiza en dos etapas principales. En la primera etapa, se asignan los centroides a cada uno de los clsteres. Estos centroides representan el centro geomtrico de los objetos incluidos en cada clster. En la segunda etapa, se reasignan los objetos a los clsteres en funcin de su distancia a los centroides.

El algoritmo K-Means utiliza un enfoque iterativo para mejorar la asignacin de los objetos a los clsteres. Cada iteracin se realiza hasta que no se produzcan ms cambios en la asignacin de los objetos a los clsteres. Este proceso se repite hasta que se alcance una solucin ptima.

Una de las mayores ventajas del algoritmo K-Means es su eficiencia en trminos de tiempo de procesamiento y capacidad de manejar grandes conjuntos de datos. El algoritmo es fcil de implementar y es muy escalable, lo que lo hace ideal para una amplia gama de aplicaciones en la minera de datos.

Sin embargo, existen algunas desventajas del algoritmo K-Means. Una de las ms comunes es su dependencia de la eleccin de los valores iniciales para los centroides. Si los valores iniciales son poco representativos, el algoritmo puede no producir los resultados deseados. Adems, el algoritmo K-Means tambin puede ser sensible a la presencia de outliers en los datos, lo que puede afectar negativamente a la calidad de los resultados.

Otro factor importante a tener en cuenta al utilizar el algoritmo K-Means es la necesidad de especificar el nmero de clsteres deseados (k) antes de comenzar el proceso. Si se escoge un valor de k que no refleje adecuadamente la estructura de los datos, los resultados pueden ser pobres. Por lo tanto, es importante seleccionar un valor de k adecuado para el conjunto de datos en cuestin.

Grfico 3: Algoritmo K-means.

Realizado por: Gupta et al (2023).

 

Algoritmo por agrupamiento jerrquico

Segn Jianan (2022), el clster por jerarquas es un algoritmo que se utiliza para agrupar objetos en clsteres basados en la relacin de contencin entre los objetos. Otro algoritmo de clustering comnmente utilizado es el algoritmo de agrupamiento jerrquico. Este algoritmo utiliza un enfoque diferente al de k-means, ya que utiliza una tcnica de agrupamiento que recursivamente agrupa objetos similares en un solo clster. El algoritmo de agrupamiento jerrquico produce una estructura de rbol que representa la relacin entre los clsteres, lo que lo hace ideal para visualizar y explorar los datos.

El algoritmo de agrupamiento jerrquico es una tcnica de clustering que se utiliza para clasificar objetos en grupos basados en su similitud y relacin. Es uno de los algoritmos de clustering ms antiguos y ampliamente utilizados. El algoritmo de agrupamiento jerrquico se divide en dos enfoques principales: aglomerativo y divisivo. En el enfoque aglomerativo, se inicia con cada objeto en un clster separado y, a continuacin, se combinan gradualmente clsteres hasta que todos los objetos se agrupan en un solo clster. Por otro lado, en el enfoque divisivo, se inicia con todos los objetos en un solo clster y, a continuacin, se divide gradualmente en clsteres ms pequeos hasta que cada objeto se encuentre en un clster separado.

Este algoritmo utiliza una representacin de rbol llamada dendrograma para representar los clsteres resultantes. Cada nivel del dendrograma representa un clster diferente, y los nodos en el dendrograma representan la fusin o la divisin de clsteres. El dendograma tambin permite visualizar la relacin entre los clsteres y su evolucin a lo largo del tiempo.


El algoritmo de agrupamiento jerrquico se basa en la medida de distancia entre los objetos. La medida de distancia ms comnmente utilizada es la distancia Euclidiana, aunque tambin se pueden utilizar otras medidas de distancia, como la distancia de Manhattan o la distancia de Mahalanobis. La medida de distancia se utiliza para determinar la similitud entre los objetos y para decidir cundo combinar o dividir los clsteres. El algoritmo de agrupamiento jerrquico es flexible en cuanto a su capacidad para manejar diferentes tipos de datos, como datos continuos, categricos o mixtos. Adems, es una tcnica robusta y resistente a la presencia de ruido o valores atpicos en los datos. Sin embargo, una de las desventajas del algoritmo de agrupamiento jerrquico es que puede ser computacionalmente costoso, especialmente cuando se trabaja con grandes conjuntos de datos. Otra desventaja es que el algoritmo de agrupamiento jerrquico requiere la seleccin de un criterio de corte para determinar el nmero final de clsteres.

 

Grfico 4: Algoritmo de agrupamiento jerrquico

Realizado por: Berzal (2018).

Algoritmo Density-Based Spatial Clustering of Applications with Noise

Berzal (2020), lo define como un algoritmo de clustering basado en densidad, que se enfoca en la identificacin de regiones densamente pobladas de datos. El algoritmo Density-Based Spatial Clustering of Applications with Noise (en adelante DBSCAN) es un algoritmo de clustering basado en densidad, diseado para identificar regiones densamente pobladas de datos y encontrar estructuras en los datos. Este algoritmo es uno de los mtodos de clustering ms utilizados en la industria y se destaca por su capacidad para identificar clusters de forma automtica, sin la necesidad de especificar previamente el nmero de clusters.

El algoritmo DBSCAN se basa en dos conceptos principales: la densidad y el radio. La densidad se refiere a la cantidad de puntos presentes en una regin dada, y el radio se refiere a la distancia mxima permitida entre dos puntos para que se consideren parte del mismo clster. A partir de estos conceptos, DBSCAN define un clster como un conjunto de puntos en los que la distancia entre cualquier par de puntos es menor o igual que el radio.

El proceso de DBSCAN comienza eligiendo un punto al azar y buscando otros puntos dentro del radio. Si se encuentran suficientes puntos dentro del radio, se considera que existe un clster. Luego, se eligen los puntos encontrados en el primer clster y se realiza el mismo proceso para ellos, hasta que ya no se encuentren puntos adicionales. Este proceso se repite hasta que se han explorado todos los puntos en el conjunto de datos.

Una de las ventajas de DBSCAN es que es capaz de identificar clusters de diferentes formas y tamaos, y puede manejar datos con un nmero variable de dimensiones. Adems, DBSCAN es capaz de identificar clsteres no convexos y detectar puntos atpicos o ruido en los datos, lo que lo diferencia de otros algoritmos de clustering que solo pueden identificar clsteres convexos. Sin embargo, el algoritmo DBSCAN tambin tiene algunos desafos. Uno de los mayores desafos es encontrar el valor adecuado para el radio, ya que un radio demasiado pequeo puede resultar en la creacin de demasiados clsteres, mientras que un radio demasiado grande puede combinar clsteres diferentes en un solo clster. Adems, DBSCAN puede tener dificultades para manejar datos con una distribucin no uniforme y con una concentracin muy alta de puntos.

 


Grfico 5: Algoritmo DBSCAN

Realizado por: Berzal (2020).

Se determina que de los tres algoritmos de clustering mencionados anteriormente, el ms eficiente acorde a las necesidades especficas de la empresa, es K-Means por su ejecucin rpida y eficiente. Por otra parte, el algoritmo Hierarchical Clustering es una buena opcin si se requiere una visin general de la estructura de los clsteres y si se desea realizar un seguimiento de cmo los datos evolucionan a lo largo del tiempo. Finalmente, se recomienda el algoritmo DBSCAN cuando los clsteres tienen formas irregulares y si se requiere identificar regiones densamente pobladas de datos.

Se ha redactado de manera detallada toda la informacin para que las organizaciones tengan a su disposicin una gua de las mejores herramientas, algoritmos y mtodos indispensables para el procesamiento de Big Data, debido a que las empresas deben automatizar sus procesos tradicionales. Con esta informacin las organizaciones podrn sacar el mximo provecho a los resultados obtenidos detrs del arduo proceso de limpieza, transformacin y anlisis de los datos.

 

Resultados

En esta seccin de resultados se disea una gua para las empresas acerca de la Big Data y la forma ms adecuada para el procesamiento de informacin, limpieza y anlisis de datos, con el objetivo de mejorar la seleccin de herramientas y algoritmos utilizados en el procesamiento de datos dentro de las organizaciones.

 

Gua para el procesamiento de informacin en las organizaciones

Limpieza de datos

Antes de comenzar el anlisis de los datos, es importante que se realice una limpieza adecuada para eliminar cualquier dato inconsistente, duplicado o faltante. La limpieza de datos tambin puede incluir la correccin de errores y la normalizacin de los datos para hacerlos consistentes. Hay muchas herramientas disponibles en el mercado para ayudar en la limpieza de datos, incluyendo aquellas que se integran con sistemas de Big Data, como Apache NiFi y Apache Hive, as como soluciones de software independientes.

Melissa Data Clean Suite es una opcin popular para muchas empresas debido a su capacidad para proporcionar una limpieza de datos eficiente y precisa. Con Melissa Data Clean Suite, las empresas pueden verificar y corregir la direccin postal, el correo electrnico y los nmeros de telfono de sus registros de datos. Adems, la suite tambin ofrece la capacidad de eliminar duplicados y normalizar los datos para hacerlos consistentes.

Otro factor que hace que Melissa Data Clean Suite sea una opcin atractiva para muchas empresas es su facilidad de uso. La suite es fcil de integrar con sistemas existentes y no requiere conocimientos tcnicos avanzados para utilizarse. Esto significa que las empresas pueden comenzar a utilizar la suite de forma rpida y eficiente, sin tener que dedicar una gran cantidad de recursos a la formacin de sus equipos.

 

Transformacin de Datos

La transformacin de datos implica la conversin de los datos en un formato que sea adecuado para su anlisis. Esto puede incluir la agregacin de datos, la creacin de nuevas variables y la eliminacin de variables irrelevantes. La transformacin de datos es un paso crtico en el proceso de Big Data, ya que permite a las empresas preparar los datos para su anlisis. Esto incluye la reorganizacin de los datos, la eliminacin de datos irrelevantes, la creacin de nuevas variables y la combinacin de datos de diferentes fuentes. La transformacin de datos tambin es importante para corregir errores en los datos y hacerlos consistentes.

Spark es una de las opciones ms populares para la transformacin de datos en Big Data. Spark es un marco de procesamiento de datos en paralelo que ofrece una amplia gama de funciones para la transformacin de datos, incluidas las operaciones de agregacin, filtrado y reemplazo de datos. Spark tambin es una solucin escalable, lo que significa que puede manejar grandes volmenes de datos con eficacia. Adems, Spark es compatible con una amplia gama de lenguajes de programacin, como Java, Python, Scala y R, lo que lo hace accesible para una amplia variedad de equipos de desarrollo.

En general, Spark es una opcin popular para la transformacin de datos en Big Data debido a su eficiencia, escalabilidad y compatibilidad con una amplia gama de lenguajes de programacin. Las empresas pueden utilizar Spark para procesar y transformar grandes volmenes de datos en un formato adecuado para su anlisis, lo que les permite obtener insights valiosos a partir de sus datos.

 

Anlisis de Datos

Determinamos que de los tres algoritmos de clustering mencionados anteriormente, es posible decir que el mejor algoritmo depende de las necesidades especficas de la empresa. Sin embargo, en trminos generales, se puede decir que el algoritmo K-Means es una buena opcin si los clsteres tienen formas regulares y bien definidas, y si se requiere una ejecucin rpida y eficiente. El algoritmo Hierarchical Clustering es una buena opcin si se requiere una visin general de la estructura de los clsteres y si se desea realizar un seguimiento de cmo los datos evolucionan a lo largo del tiempo. Finalmente, el algoritmo DBSCAN es una buena opcin si los clsteres tienen formas irregulares y si se requiere identificar regiones densamente pobladas de datos.

 

Herramientas Tecnolgicas

Las empresas pueden utilizar una amplia gama de herramientas y tecnologas para el procesamiento y anlisis de Big Data. Algunas de las tecnologas ms populares incluyen Apache Hadoop, Apache Spark, Apache Storm, Apache Flink y Apache Cassandra. Tambin existen herramientas de anlisis de datos, como Tableau, Power BI, QlikView y SAS, que pueden ayudar a las empresas a visualizar y analizar sus datos de manera efectiva.

Adems, existen plataformas en la nube, como Amazon Web Services (AWS) y Microsoft Azure, que ofrecen soluciones de Big Data asequibles y escalables. Estas plataformas pueden ayudar a las empresas a reducir los costos de hardware y de mantenimiento, y a tener una infraestructura de Big Data flexible y escalable.

 

Anlisis e Interpretacin

El procesamiento de datos se debe de manera general a tres importantes fases: Limpieza, Transformacin y Anlisis, por lo que de manera resumida se recomienda a las empresas la implementacin de mecanismos que les permitan obtener resultados efectivos de informacin, esto con el objetivo de tomar decisiones correctas antes y despus de las operaciones o actividades empresariales. Tambin se debe invertir en infraestructura adecuada a las necesidades, en trminos de escalabilidad como de costo. Las empresas deben contar con un equipo capacitado en procesamiento y anlisis de Big Data, sobre todo aquellas empresas que manejan grandes volmenes de informacin (ejemplo: La Fabril, CNT, Claro, Movistar, entre otros). Aunque la mayor parte de los servicios y aplicaciones que permiten la administracin de Big Data son de pago, existen otras alternativas de software libre, tales como: Python, R, Power BI en su versin bsica, entre otros.

 

Discusin

La gua para el procesamiento de datos, diseada en esta investigacin se encuentra actualizada, es una propuesta que garantiza a las organizaciones economizar costos en relacin a la contratacin de servicios. Lo que confirma (Flores & Villacs, 2017) como un factor muy importante dentro de las organizaciones, debido a que medida que han surgido aplicaciones de uso gratuito algunas empresas se han visto beneficiadas, sin obviar que la mayor parte de los servicios otorgados en estas licencias son bsicos y no contienen todas las funciones, incluyendo la seguridad. Por lo tanto (Garca, 2022) asegura que es ms conveniente pagar por las herramientas y as poder tener un control ms amplio y efectivo de las mismas, en el sector bancario es elemental contar con todas las funcionalidades.

Las herramientas para el procesamiento de datos, pueden ser utilizadas por diversas organizaciones, aunque existan algunas que se encargan de desarrollarlas apoyndose de tecnologas de software libre, tales como Python, R u otras. Se vive en un mundo completamente digitalizado y el bien ms importante para las organizaciones es la informacin, la cual debe ser procesada de manera correcta para tomar decisiones eficientes.

 

Conclusiones

La era digital en la que vivimos ha generado una cantidad masiva y creciente de datos que se producen a una velocidad cada vez mayor. Estos datos pueden ser de diversos formatos y provienen de mltiples fuentes, incluyendo redes sociales, transacciones comerciales y sensores. La capacidad de procesar y analizar estos datos puede ser una ventaja competitiva para las empresas, ya que les permite obtener insights valiosos y tomar decisiones informadas basadas en datos.

El procesamiento de Big Data implica varios pasos, incluyendo la limpieza de datos, la transformacin de datos y el anlisis de datos. La limpieza de datos implica la eliminacin de cualquier dato inconsistente, duplicado o faltante, as como la correccin de errores y la normalizacin de los datos para hacerlos consistentes. Hay muchas herramientas disponibles en el mercado para ayudar en la limpieza de datos, incluyendo Apache NiFi y Apache Hive, as como soluciones de software independientes como Melissa Data Clean Suite, que es la mejor opcin para la mayora de las empresas porque cada empresa es distinta y tiene distintas necesidades.

La transformacin de datos implica la conversin de los datos en un formato adecuado para su anlisis. Esto puede incluir la agregacin de datos, la creacin de nuevas variables y la eliminacin de variables irrelevantes. La transformacin de datos es un paso crtico en el proceso de Big Data, ya que permite a las empresas preparar los datos para su anlisis. Spark es una de las opciones ms populares y de las mejores para la transformacin de datos en Big Data.

El anlisis de datos es un proceso clave para la obtencin de informacin valiosa y til para las empresas. El uso de tcnicas de aprendizaje automtico y estadsticas permite explorar los datos de manera efectiva y obtener insights. En cuanto a los algoritmos de clustering mencionados, K-Means, Hierarchical Clustering o tambin llamado Agrupamiento jerrquico y DBSCAN, cada uno de ellos tiene sus fortalezas y debilidades y la eleccin del mejor algoritmo depender de las necesidades especficas de la empresa. Sin embargo, en general, K-Means es una buena opcin para clsteres con formas regulares y bien definidas, Hierarchical Clustering es adecuado para una visin general de la estructura de los clsteres y seguimiento a lo largo del tiempo, mientras que DBSCAN es til para identificar regiones densamente pobladas de datos con formas irregulares. Es importante destacar que la eleccin del mejor algoritmo de clustering requiere un conocimiento profundo de los datos y una evaluacin cuidadosa de las necesidades de la empresa.

En conclusin, el procesamiento de Big Data es un aspecto clave para las empresas que buscan mejorar su toma de decisiones y aprovechar al mximo los datos que generan. La limpieza y transformacin de los datos son pasos crticos en este proceso y deben ser realizados de manera eficiente y precisa. La utilizacin de herramientas especializadas en la limpieza y transformacin de datos, como Melissa Data Clean Suite y Spark, puede ser de gran ayuda para las empresas en este proceso.

Se recomienda que las empresas inviertan en la capacitacin de sus equipos en el uso de estas herramientas y en la comprensin de los conceptos y prcticas relevantes en el procesamiento de Big Data. Tambin es importante que las empresas establezcan polticas y procedimientos claros para la gestin de datos y se aseguren de cumplir con las regulaciones y leyes aplicables en la proteccin de datos personales. En ltima instancia, un enfoque integral.

 

Referencias

1.      Aguilar Aguilar, I., Cuevas Cruz, F., Duran Martnez, P., Garca Carmen, E., Hernndez Romero, A., Mateos Casimiro, E., Ortega Snchez, J., Retana Contreras, J., Ruiz Macedonio, J., Segundo Romero, C., Sols Colin, I., Ugalde Zaldivar, J., Vzquez Clemente, B., Vzquez Ramrez, A. & Ypez Martnez, D. (2022). Antologa gestin y anlisis de Big Data LIAD6 2022-A. Recuperado desde: http://ri.uaemex.mx/handle/20.500.11799/137910

2.      Arias, W. (2019). BIG DATA: Extraer, transformar y cargar los datos, Instituto Internacional de Ciencias de Datos, https://i2ds.org/2016/05/04/big-data-extraer-transformar-y-cargar-los-datos/

3.      Berzal, F. (2018). Clustering jerrquico. DECSAI. https://elvex.ugr.es/idbis/dm/slides/42%20Clustering%20-%20Hierarchical.pdf

4.      Berzal, F. (2020). Clustering basado en densidad. DECSAI. https://elvex.ugr.es/idbis/dm/slides/43%20Clustering%20-%20Density.pdf

5.      Camargo Vega, J., Camargo Ortega, J. & Joyanes Aguilar, L. (2015). Conociendo Big Data. Revista Facultad de Ingeniera, 24(38), pp. 6377. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-11292015000100006

6.      Carranza, A. (2022). Data Cleansing: averigua cmo limpiar datos errneos y conservar informacin valiosa, https://www.crehana.com/blog/transformacion-digital/data-cleansing/

7.      Garca, I. (2022). Big Data en seguros. NowoTech. https://nowo.tech/formacion/big-data-en-seguros/

8.      Garca, S., Ramrez, S., Luengo, J. & Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos, Departamento de Ciencias de la Computacin e Inteligencia Artificial, Universidad de Granada (Espaa), 237(1), pp. 17-23, https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/2133_Nv237-Digital-sramirez.pdf

9.      Giner, G. (2018). Minera de datos: qu relacin tiene con el Big data?. Business Revista Digital. https://www.escueladenegociosydireccion.com/revista/business/big-data/la-mineria-de-datos-en-el-big-data/

10.  Gutirrez, J. & Vigo, V. (2021). Modelo de aprendizaje automatizado del proceso de venta de productos financieros en un Call center. https://repositorio.ulima.edu.pe/handle/20.500.12724/14344

11.  Hernndez Leal, E., Duque Mndezy N., Moreno Cadavid, J. (2017). Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin. TecnoLgicas, 20(39), pp. 15-38. https://www.redalyc.org/journal/3442/344251476001/html/

12.  Jianan, L. (2022). Understanding Mean Shift Clustering and Implementation with Python. Towards Data Science, https://towardsdatascience.com/understanding-mean-shift-clustering-and-implementation-with-python-6d5809a2ac40

13.  Liarte Muoz, J. (2019). Anlisis de datos de las organizaciones. Big data. TFG-Facultad de Ciencias de la Empresa, pp. 1-45. https://repositorio.upct.es/bitstream/handle/10317/7754/tfg-lia-ana.pdf?sequence=1&isAllowed=y

14.  Flores Avendao, P. & Villacs Vera, A. (2017). Anlisis comparativo de las herramientas de Big data en la Facultad de Ingeniera de la Pontificia Universidad Catlica del Ecuador. http://repositorio.puce.edu.ec/handle/22000/14119

15.  Rahman, A. (2019). What is Data Cleaning? How to Process Data for Analytics and Machine Learning Modeling?. Towards Data Science, https://towardsdatascience.com/what-is-data-cleaning-how-to-process-data-for-analytics-and-machine-learning-modeling-c2afcf4fbf45

16.  Ramrez, L. (2023). Algoritmo k-means: Qu es y cmo funciona?. Business & Tech. https://www.iebschool.com/blog/algoritmo-k-means-que-es-y-como-funciona-big-data/

17.  Srikanth, B. & Reddy, V. (2016). Efficiency of Stream Processing Engines for Processing BIGDATA Streams. Indian Journal of Science and Technology. https://www.researchgate.net/publication/301797425_Efficiency_of_Stream_Processing_Engines_for_Processing_BIGDATA_Streams

18.  Szell, C. (2020). Herramientas de la transformacin digital El ETL. Conectamagazine, https://www.conectasoftware.com/magazine/conector/herramientas-de-la-transformacion-digital-el-etl/

19.  Viswarupan, N. (2017). K-Means Data Clustering. Towards Data Science, https://towardsdatascience.com/k-means-data-clustering-bce3335d2203

20.  Zaheer A., Zaynah A. (2019). On big data, artificial intelligence and smart cities, Cities, 89(1), pp. 80-91, https://www.sciencedirect.com/science/article/pii/S0264275118315968

 

 

 

 

 

 

 

 

 

2023 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

 

 

 

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/