[Audio] ANÁLISIS DE DATOS MASIVOS. Módulo 4 – Unidad 4 1.
[Audio] UNIDAD 4. ANÁLISIS DE DATOS MASIVOS. ............................................................................................. 3 4.1. ¿QUÉ COMPRENDE EL ANÁLISIS DE DATOS MASIVOS? ........................................................ 3 4.2. TIPOS DE PROCESAMIENTO: POR LOTES, EN FLUJOS Y EN GRAFOS ..................................................... 9 4.3. ANÁLISIS DE DATOS ESTÁTICOS, DINÁMICOS Y DE GRAFOS ...............................................................15 2.
[Audio] Unidad 4. Análisis de datos masivos. 4.1. ¿Qué comprende el análisis de datos masivos? En la actualidad, hablar de Big Data en un contexto empresarial equivale a hablar simplemente de datos, ya que en la mayoría de los casos el uso del calificativo "Big Data" resulta innecesario. En relativamente poco tiempo, empresas de todos los tamaños y niveles de facturación han tomado conciencia del volumen real de datos que les rodea. Estos datos no solo surgen de la propia actividad del negocio, sino que provienen también de fuentes externas que proporcionan un contexto y un sentido a esa actividad. Según López (2023), aunque probablemente sí en cuanto a cantidad, tampoco son datos necesariamente nuevos. A pesar de que muchos de ellos son intrínsecos al propio negocio, su puesta en valor, explotación y rentabilización no se ha producido hasta hace no muchos años (p. 10). Antes de avanzar, es recomendable definir datos masivos o Big Data. Se puede definir Big Data como "[…] el conjunto de operaciones, técnicas y tecnologías orientadas al procesamiento de grandes y variados volúmenes de datos, con el fin de generar información válida sobre la que desarrollar conocimiento y soportar las decisiones de negocio" (López, 2023, p. 13). Con esta definición establecida, se aborda el análisis de datos masivos, teniendo en cuenta que el aspecto fundamental y fundacional del Big Data es el análisis de grandes volúmenes de datos. Es decir, colocar los datos a disposición de los analistas y usuarios para tomar decisiones documentadas sobre la operativa, la táctica y la estrategia del negocio (López, 2023, p. 37). 3.
[Audio] En definitiva, el concepto de Big Data ha evolucionado rápidamente en el ámbito empresarial, donde ahora simplemente se habla de datos. Las empresas han comprendido la magnitud de los datos que las rodean, provenientes tanto de su actividad como de fuentes externas. Aunque estos datos no son necesariamente nuevos, su valorización y explotación reciente resaltan la importancia del análisis de grandes volúmenes de datos para la toma de decisiones empresariales. Categorías del análisis de datos Antes de comenzar, vamos a circunscribir en análisis de datos, al análisis de negocios. López (2023) define la analítica de negocios como: "[…] conjunto de aproximaciones, métodos y tecnologías encaminadas a la explotación de la información con ese fin" (p. 37). En efecto, la Business Analytics (BA), o analítica de negocios, comprende una serie de enfoques, técnicas y herramientas diseñadas específicamente para aprovechar esta información con el objetivo de optimizar el funcionamiento y la dirección de una empresa (López, 2023, p. 37). Hay cuatro categorías dentro de la analítica de negocio. Lo usual es que las empresas las vayan abordando de forma progresiva, construyendo una sobre la otra. Por este motivo, se suelen hacer corresponder con los grados de madurez empresarial en cuanto a la orientación por los datos (López, 2023, p. 37). La primera categoría es la analítica descriptiva, la cual ofrece datos sobre el desempeño previo de la empresa y su entorno (López, 2023, p. 38), abordando interrogantes tales como: Cuál fue el número de piezas defectuosas en cada una de las fábricas durante el último trimestre. Cómo ha variado la rentabilidad promedio por metro cuadrado de las tiendas respecto al último año. 4.
[Audio] Qué relación existe entre los días de lluvia y el incremento en la venta de paraguas. (López, 2023, p. 38) Aunque este análisis se basa en la reacción a eventos pasados, su ejecución puede ser instantánea, ya que puede hacer uso de datos en tiempo real recién generados. Este enfoque de análisis hace uso de informes predefinidos y personalizados, así como de tableros interactivos (dashboards) que ofrecen a los usuarios la capacidad de acceder y explorar la información de manera autónoma y sencilla (López, 2023, pp. 38-39). La segunda categoría, es la analítica prescriptiva. En este punto, ingresamos al ámbito de las recomendaciones, que pueden manifestarse en forma de planificación, presupuestación u optimización en diversos aspectos. Este tipo de análisis se centra en aspectos operativos y de proceso, con el objetivo de identificar la solución más adecuada para una situación específica, detallando sus particularidades y considerando las mejores prácticas disponibles (López, 2023, p. 39). Ejemplo de lo anterior es: Organizar los turnos y las rotaciones de las tripulaciones en una compañía aérea, teniendo en cuenta restricciones operativas y laborales que condicionan la planificación. Establecer las ubicaciones más adecuada para situar una serie de centros logísticos con el fin de abastecer los puntos de venta lo más rápido posible, incurriendo en los mínimos costes. Determinar y planificar qué tipo de planta generadora debe ponerse en funcionamiento en cada franja y en que secuencia para abastecer la demanda de energía, teniendo en cuenta el tiempo de arranque y los periodos de mantenimiento obligatorios. Definir la estrategia de precios más adecuada para el petróleo, considerando los niveles de producción en cada momento, la demanda y la situación geopolítica. (López, 2023, pp. 39-40) En tanto, la tecnología empleada en este tipo de análisis aprovecha la integración de reglas empresariales con modelos matemáticos de optimización y simulación, que abarcan desde análisis hipotéticos (what-if analysis) hasta técnicas avanzadas como programación lineal y no lineal, así como algoritmos genéticos y cadenas de Markov (López, 2023, p. 40). 5.
[Audio] La tercera categoría, es la analítica predictiva la cual se fundamenta en la identificación de patrones, tendencias y conexiones que facilitan la comprensión de un comportamiento a partir de datos previos, con el propósito de preverlo en el futuro mediante la creación de modelos predictivos (López, 2023, p. 40). Como campo de estudio, la minería de datos ofrece métodos fundamentados en el análisis estadístico de múltiples variables y el aprendizaje automático (machine learning), que abarcan desde la estimación de tendencias y clasificación hasta la agrupación de datos (clustering), así como el análisis de secuencias temporales y la identificación de asociaciones y patrones secuenciales (López, 2023, p. 40). Además, en cuanto al valor de los modelos predictivos, López (2023) afirma que "el verdadero valor de los modelos predictivos está en su puesta en producción" (p. 41). Esto implica implementar estos modelos en entornos operativos, incorporándolos a otros sistemas y aplicaciones empresariales, con el objetivo de realizar acciones concretas, como detectar fraudes en transacciones, otorgar cupones de descuento en supermercados o seleccionar el público objetivo para campañas de marketing, entre otras posibilidades (López, 2023, p. 41). Y, por último, la cuarta categoría corresponde a la computación cognitiva, este enfoque representa el nivel más avanzado de la tecnología en términos de procesamiento y análisis de datos. La inteligencia artificial, mediante sistemas simbólicos y el aprendizaje profundo (deep learning), está progresando significativamente en diversas áreas, como el procesamiento del lenguaje natural (NLP), la clasificación de imágenes y el reconocimiento de voz (López, 2023, p. 43). El objetivo, de acuerdo con López (2023), "[…] es, ni más ni menos, que desarrollar sistemas con capacidad para entender, razonar e interactuar emulando a los seres humanos" (p. 43). Además de su implementación directa en áreas como la robótica, la visión 6.
[Audio] por computadora y los asistentes virtuales, estas tecnologías son distintivas en la capacidad de analizar resultados. Por ejemplo: Facilitando la preparación e integración de la información, recomendando como transformar y enlazar datos de fuentes dispersas mediante la comprensión semántica de su contenido. Revelando patrones y relaciones entre los datos que son difíciles de detectar, sugiriendo nuevos cruces de información. Recomendando las mejores formas de representar y visualizar los datos, interpretando su significado y contexto. Respondiendo a preguntas en lenguaje natural, de forma clara y concisa, acelerando la navegación sobre los datos. (López, 2023, p. 43) En la figura 1, se observan las capacidades analíticas. Estadísticas Clasificación Optimización Sistemas expertos Correlaciones Regresión Simulación Aprendizaje profundo Informes Clustering Planificación Tableros Presupuestación ¿Sabés que está sucediendo? Detección de anomalías Análisis cognitivo Análisis descriptivo Análisis predictivo Análisis prescriptivo ¿Qué ha sucedido y por qué? ¿Que sucederá si...? ¿Qué sucedera y a quien? Figura 1: Capacidades analíticas Fuente: Elaboración propia, a partir de López (2023, p. 38). Por lo tanto, la analítica de negocios abarca un conjunto de enfoques, desde la analítica descriptiva hasta la computación cognitiva. Estos métodos no solo permiten a las empresas analizar el pasado y predecir el futuro, sino también tomar decisiones informadas, ágiles y alineadas con sus objetivos estratégicos. La implementación progresiva de estas técnicas es un indicador clave del nivel de madurez en la orientación por datos, lo que facilita una ventaja competitiva sostenida en un entorno empresarial en constante evolución. 7.
[Audio] Datos masivos y análisis de datos. Big data analytics El análisis de datos masivos, también llamado Big Data Analytics, es una disciplina que se concentra en el estudio y procesamiento de grandes volúmenes de información. Esta práctica permite identificar patrones, tendencias y correlaciones significativas, proporcionando insights valiosos para la toma de decisiones en diversos campos, desde negocios hasta investigación científica. Debido al rápido y vasto surgimiento de datos masivos, es esencial emplear tecnología y métodos que integren la estadística y las matemáticas para su análisis eficiente. Esto permite a las empresas extraer características, perfiles de usuarios y tendencias de compra, lo que constituye el campo del análisis de big data (Medina, 2023, p. 23). La fusión de big data y análisis resulta sumamente poderosa en esta era de gran digitalización, ya que presenta una amplia gama de oportunidades para su aplicación en organizaciones, tanto del sector público como del privado. Estas oportunidades incluyen: Conocer mucho más a los clientes. Disminuir la fuga de clientes. Ofrecer un mejor producto o servicio. Conocer mucho mejor los comportamientos de compra. Advertir la necesidad o la demanda de ciertos productos. Atraer nuevos clientes que aumenten el rendimiento de la empresa. Optimizar costos de producción o prestación del servicio. Mejorar la captación de clientes. Fidelizar clientes. (Medina, 2023, p. 24) Además, los usos del análisis de big data son tan amplios que incluso pueden predecir si una persona está en riesgo de depresión solo analizando sus actividades en redes sociales: la cantidad de mensajes, el lenguaje utilizado y sus patrones de uso. Esto se logra combinando datos recientes con el aprendizaje obtenido del comportamiento previo de personas con depresión (Medina, 2023, p. 24). 8.
[Audio] Definitivamente, la identificación de similitudes o correlaciones en las características o comportamientos permite reconocer que cuando una persona empieza a exhibir conductas similares, es susceptible de desarrollar depresión (Medina, 2023, p. 24). 4.2. Tipos de procesamiento: por lotes, en flujos y en grafos Los diferentes tipos de procesamiento de datos son fundamentales en el análisis de información. El procesamiento por lotes implica el tratamiento de conjuntos de datos completos, mientras que el procesamiento en flujos se centra en datos continuos en tiempo real. Por otro lado, el procesamiento en grafos se enfoca en la representación y análisis de relaciones entre entidades. Procesamiento por lotes El inicio de todo análisis de datos requiere la captura de la información, es decir, la habilidad de conseguir los datos de las fuentes que los generan o los conservan, con el fin de posteriormente proceder a su análisis (Casas, Nin y Julbe, 2019, p. 127). En este contexto, la etapa de captura de datos emerge como un componente esencial en el proceso de análisis, independientemente de si se trata de conjuntos de datos grandes o pequeños. Resulta imposible analizar datos si no se han adquirido en el momento en que estaban disponibles (Casas et al., 2019, p. 127). Cuando se hace referencia a la captura de datos según la naturaleza de producción de estos, hallamos dos bloques; los datos estáticos y los datos dinámicos: Datos estáticos: son datos que ya se encuentran almacenados en algún lugar, ya sea en formato de archivos (por ejemplo, archivos de texto, JSON, XML, etc.) o en bases de datos. Datos dinámicos o en streaming: son datos que se producen de forma continua, y que deben ser capturados durante un umbral limitado de tiempo, ya que no estarán disponibles una vez pasado este. (Casas et al., 2019, p. 128) 9.
[Audio] Los datos estáticos están almacenados de manera duradera, lo que significa que se mantienen a largo plazo. Por consiguiente, la captura de estos datos sigue un proceso similar al utilizado en los métodos tradicionales de minería de datos (Casas et al., 2019, p. 128). El objetivo primordial consiste en tener acceso a estos datos y trasladarlos a los sistemas de almacenamiento del entorno analítico. Estos sistemas pueden ser de archivos distribuidos o bases de datos NoSQL, especialmente en el caso de conjuntos de datos masivos (Casas et al., 2019, p. 128). De acuerdo con Casas et al. (2019) los datos estáticos se presentan de dos maneras: Datos contenidos en ficheros no estructurados (por ejemplo, ficheros de texto), semiestructurados (como, por ejemplo, ficheros XML) o estructurados (como, por ejemplo, ficheros separados por coma u hojas de cálculo). Datos contenidos en bases de datos, ya sean de tipo relacional (como, por ejemplo, MySQL o PostgreSQL) o de tipo NOSQL (Cassandra o Iieo4J, entre muchos otros). (p. 128) Después de establecer una conexión con la fuente, ya sea un archivo o una base de datos, los datos se leerán de manera secuencial y se integrarán en el almacén analítico para su correspondiente análisis (Casas et al., 2019, p. 129). Existen varias herramientas disponibles para llevar a cabo estas tareas, algunas son específicas mientras que otras abarcan todo el proceso de extracción, transformación y carga de datos (ETL, por sus siglas en inglés: extract, transform, and load). Además, hay herramientas elaboradas para manejar grandes volúmenes de datos, mientras que otras, aunque pueden gestionar volúmenes considerables, no están diseñadas para trabajar en contextos de big data (Casas et al., 2019, p. 129). En la figura 2, se observan las características del procesamiento por lotes. 10.
[Audio] Los datos deben ser contextualizados en un marco temporal para ser tratados de forma conjuntaLos datos deben ser contextualizados en un marco temporal para ser tratados de forma conjunta Durante el procesamiento, los datos pueden ser almacenados temporalmente en varias ocasiones Los procesos de tratamiento suelen estar planificados o pueden desencadenarse por algún evento Las operaciones y análisis de negocio que dependen de los datos deben adaptarse a la ventana de ejecución de los procesos o viceversa Las transformaciones sobre los datos pueden ser exhaustivas Figura 2. Características del procesamiento por lotes. Fuente: Elaboración propia, a partir de López (2023, p. 145). De esta manera, el procesamiento por lotes, con su enfoque en la ejecución de tareas en grupos, ha sido una parte fundamental de los sistemas informáticos durante décadas. Sus características, como la eficiencia en la utilización de recursos y la programación anticipada de trabajos, lo hacen una opción sólida para tareas repetitivas y de gran volumen en entornos computacionales. Procesamiento en flujos Los datos dinámicos o en tiempo real son aquellos que se generan de manera constante y deben ser adquiridos dentro de un período específico, dado que dejarán de estar accesibles después de un lapso determinado (Casas et al., 2019, p. 192). Asimismo, Casas et al. (2019) precisan que los datos dinámicos o en streaming "[…] son datos que se producen de forma continua, y que deben ser capturados durante un umbral 11.
[Audio] limitado de tiempo, ya que no estarán disponibles pasado un determinado periodo de tiempo" (p. 192). Generalmente, esta clase de datos se origina simultáneamente por varios agentes y tiende a ser de tamaño reducido, típicamente en el rango de kilobytes (Casas et al., 2019, p. 192). Algunos ejemplos de datos en streaming incluyen: Información proveniente de sensores ubicados en la vía pública. Datos financieros de la bolsa. Datos cardiovasculares transmitidos por un reloj inteligente. Datos sobre las acciones realizadas por un usuario en una aplicación móvil. Datos de redes sociales, como clics, me gusta y compartidos (Casas et al., 2019, p. 192). La presencia de este tipo de datos no es reciente. En realidad, las tecnologías de bases de datos han venido ofreciendo soluciones para el tratamiento de datos en streaming durante décadas. Sin embargo, el surgimiento de nuevas tecnologías que posibilitan la generación y transmisión de una mayor cantidad de datos con mayor frecuencia (como el Internet de las cosas y las ciudades inteligentes), junto con mejoras en los sistemas distribuidos, la introducción de microservicios, el avance de los sistemas analíticos y la adopción generalizada de una cultura analítica, ha revitalizado el interés en los flujos de datos (Casas et al., 2019, p. 193). Procesamiento en grafos (red) En los últimos tiempos, ha habido un notable incremento en la popularidad de la representación de datos en forma de red. Este tipo de formato posibilita la representación de estructuras y contextos más intrincados en comparación con los datos relacionales 12.
[Audio] convencionales. La utilización de la estructura de red proporciona una manera más detallada de visualizar las relaciones entre las diversas entidades que componen el conjunto de datos (Casas et al., 2019, p. 239). De acuerdo con Pérez-Solá y Casas-Roma (2016) "los grafos son la forma más natural de representación de las redes reales, y es en este sentido en el que necesitamos introducir los conceptos básicos para poder representar las redes reales" (citados en Casas et al., 2019, p. 240). Un ejemplo evidente de esto se encuentra en las redes sociales. A menudo, los términos 'red' y 'grafo' son utilizados de manera intercambiable en la literatura. Aunque existe una distinción sutil entre ambos, se sugiere usar 'red' para describir la entidad en el mundo real y 'grafo' para su representación matemática (Casas et al., 2019, p. 239). Los grafos ofrecen una herramienta versátil para representar y abordar numerosos problemas comunes que se encuentran en diversos campos de la vida cotidiana, no solo en el ámbito de la informática. Existen una amplia variedad de tipos de grafos que permiten una representación efectiva de diferentes tipos de redes reales (Newman, 2010; Barabási y Posfai, 2016, citados en Casas et al., 2019, p. 243). Los grafos que se desarrollan son: árbol, grafo bipartito y el grafo acíclico dirigido. De acuerdo con Casas et al. (2019) "un árbol es un grafo que no tiene caminos cerrados en el que existe exactamente un camino entre cada par de puntos […]" (p. 243). Además, los árboles son una categoría de grafos que ofrecen soluciones efectivas para una amplia gama de problemas comunes asociados con estructuras jerárquicas (Casas et al., 2019, p. 243). Respecto al grafo acíclico dirigido "la principal característica […] es que […] no se producen ciclos. Así, en un DAG [grafo acíclico dirigido] existe una dirección definida, con un inicio y un final determinados" (Casas et al., 2019, p. 244). 13.
[Audio] Por último, el grafo bipartito "[…] es aquel en el que los nodos pueden separarse en dos grupos, nodos de inicio y nodos finales […]" (Casas et al., 2019, p. 245). En la figura 3, se observa un ejemplo de grafo en forma de árbol y de grafo bipartito. Figura 3. (a) Grafo en forma de árbol y (b) Grafo bipartito Fuente: Casas et al. (2019, p. 244). Por otra parte, los procedimientos de adquisición relacionados con datos semiestructurados en forma de grafos exhiben una particularidad significativa en comparación con otros métodos de captura. En el contexto de los grafos, la conexión entre las entidades es tan importante como los atributos de los registros mismos. Por ende, es de gran importancia capturar esta información de manera precisa (Casas et al., 2019, p. 245). Un ejemplo destacado de la captura de datos en forma de grafos son las redes sociales, que contienen información de millones de usuarios, incluyendo características específicas de cada persona (Casas et al., 2019, p. 246). Esta información se encuentra típicamente dispersa entre varios servidores, y la manera más común de acceder a ella es mediante una API. Las APIs, o Interfaces de Programación de Aplicaciones, comprenden un conjunto de funciones y métodos proporcionados por un sistema para ser empleados por un programa externo. Su objetivo principal es extraer datos para su análisis y la generación subsiguiente de informes (Casas et al., 2019, p. 246). 14.
[Audio] Aunque hay diversas maneras de transferir datos mediante API, una de las más populares en la actualidad es el formato JSON, conocido como JavaScript Object Notation, el cual es un modelo abierto basado en texto. Este formato está planteado para facilitar el intercambio de datos legibles y admite la representación de estructuras de listas asociativas y datos simples (Casas et al., 2019, p. 247). Dependiendo de la forma que adopte la API, pueden emplearse sistemas de archivos o bases de datos NoSQL de clave-valor o tipo documental. Por ejemplo, para la transferencia de datos mediante archivos JSON, optar por un sistema de archivos distribuido puede ser adecuado, no obstante, el uso de una base de datos NoSQL de tipo documental podría proporcionar funcionalidades más avanzadas (Casas et al., 2019, p. 247). 4.3. Análisis de datos estáticos, dinámicos y de grafos En el mundo de la ciencia de datos, el análisis masivo de datos se convierte en una disciplina fundamental que aborda diversas dimensiones temporales y estructurales de la información. El análisis de datos estáticos, dinámicos y de grafos abarca la exploración y comprensión de información en distintos contextos. Los datos estáticos son conjuntos invariables a lo largo del tiempo, mientras que los datos dinámicos fluctúan continuamente. Por otro lado, los datos de grafos representan relaciones entre entidades. Este análisis proporciona una comprensión profunda de los datos, elemental para la toma de decisiones informadas en diversas áreas. Análisis de datos estáticos El análisis de datos estáticos involucra la exploración y comprensión de conjuntos de datos que no cambian con el tiempo. En este enfoque, se examinan datos que están almacenados de forma permanente y no se actualizan con frecuencia. Mediante técnicas 15.
[Audio] estadísticas y herramientas analíticas, se busca extraer información significativa y patrones relevantes que puedan proporcionar insights útiles para la toma de decisiones. Es importante examinar el funcionamiento del modelo MapReduce, que durante mucho tiempo fue líder en el procesamiento de grandes cantidades de datos, considerando sus limitaciones principales y cómo estas dieron lugar al surgimiento de Apache Spark, que ha llegado a ser el estándar predominante en la industria (Casas et al., 2019, p. 163). Según Bengfort (2016) "MapReduce es una metodología de procesado de datos distribuidos teniendo un modelo de programación para dar soporte a la computación paralela sobre grandes conjuntos de datos en clúster de computadoras […]" (citado en Casas et al., 2019, p. 163). Esta metodología realiza dos tareas principales, a saber: Map: esta tarea es la encargada de «etiquetar» o «clasificar» los datos que se leen desde el disco, típicamente de HDFS en función del procesamiento que estemos realizando. Reduce: esta tarea es la responsable de agregar los datos etiquetados por la tarea Map. Puede dividirse en dos etapas la Shuffle y el propio Reduce o agregado. (Casas et al., 2019, p. 164) El intercambio de datos entre tareas se realiza a través de estructuras que reciben el nombre de parejas o tuplas (Casas et al., 2019, p. 164). Análisis de datos dinámicos A pesar de que el análisis de datos dinámicos puede parecer una disciplina moderna, sus principios fundamentales están arraigados en enfoques estadísticos y computacionales bien conocidos. Sin embargo, en los últimos años cuando este campo ha experimentado un crecimiento significativo, impulsado por el creciente volumen de datos disponibles (Casas et al., 2019, p. 221). El desafío principal al analizar datos dinámicos es hacerlo dentro de límites de recursos computacionales y en un plazo determinado, considerando que la velocidad de generación 16.
[Audio] de nueva información puede variar. Una vez superados estos desafíos mediante técnicas de captura y almacenamiento de datos, los tipos de problemas que se pueden abordar son similares a los que se manejan en el procesamiento por lotes, como: tareas de clasificación, de clustering, de regresión, como también sistemas de detección de valores atípicos o outliers (Casas et al., 2019, p. 221). En tanto, las soluciones ofrecidas en este ámbito se dividen en dos categorías: las basadas en datos y las basadas en tareas, según su enfoque. Las soluciones basadas en datos se centran en utilizar una porción específica de la información total disponible para llevar a cabo los análisis necesarios (Casas et al., 2019, p. 222). Las técnicas que se utilizan son las siguiente: Métodos de muestreo: ya sea recogiendo muestras al azar del flujo de datos o seleccionando al azar fragmentos (subconjuntos) del flujo, los métodos de muestreo descartan parte de los datos entrantes, mientras realizan los análisis con los datos muestreados. El principal problema con este enfoque es que es difícil saber cuándo elegir una muestra o que registros se deben almacenar, porque no hay un conocimiento previo del tamaño del conjunto de datos o de la estructura de información. Métodos de resumen: usan datos agregados o medidas estadísticas calculadas (que se recalculan continuamente) para proporcionar la información necesaria para los algoritmos de análisis de datos. En este caso, es la perdida de información y/o precisión junto con la incapacidad para controlar las fluctuaciones de las distribuciones de los datos lo que hace que estos métodos no sean tan validos como uno desearía. (Casas et al., 2019, p. 222) Por el contrario, las soluciones centradas en tareas no alteran los datos, sino que ajustan los métodos de extracción para facilitar su incorporación en el flujo de trabajo. Estos métodos se clasifican en tres categorías: Algoritmos aproximados: son un tipo de algoritmos que están diseñados para resolver problemas donde encontrar una solución exacta es computacionalmente muy difícil o imposible, obteniendo un resultado aproximado junto con unos umbrales de confianza o de bondad del resultado. 17.
[Audio] Es decir, en lugar de calcular soluciones exactas, solo garantizan una solución con un cierto límite de error. Ventana deslizante o (sliding window): este tipo de métodos tienen un patrón muy extendido dentro de las ciencias de la computación que se conoce como algoritmos de procesamiento en línea (online). Estos algoritmos procesan los datos de entrada elemento a elemento de forma secuencial, es decir, en el orden en que los elementos de entrada están disponibles, sin necesidad de que todos los elementos están disponibles desde el inicio. Las aplicaciones que utilizan esta metodología mantienen una ventana deslizante en la que guardan los datos más recientes. A medida que se reciben nuevos datos entrantes, esta ventana «avanza», por lo que las nuevas observaciones se guardan en su interior […]. Los análisis de datos se realizan utilizando los datos disponibles dentro de la ventana y de forma opcional añadiendo versiones resumidas de los datos más antiguos, en forma de medidas estadísticas o datos agregados. Agregación de la salida: en este tipo de métodos se tiene en cuenta la capacidad de cálculo disponible para realizar el análisis en dispositivos con recursos limitados. Al adaptarse a la disponibilidad de recursos y a las velocidades de flujo de datos cuando los recursos se están agotando por completo, los resultados se fusionan y almacenan. (Casas et al., 2019, pp. 223224) Por lo tanto, los algoritmos aproximados ofrecen soluciones viables para problemas computacionalmente difíciles, priorizando la eficiencia sobre la exactitud. Por otro lado, los métodos de ventana deslizante permiten el procesamiento secuencial de datos en tiempo real, facilitando el análisis continuo. Finalmente, la agregación de resultados optimiza el uso de recursos, especialmente en dispositivos con limitaciones, adaptándose dinámicamente a las condiciones de flujo de datos. Análisis de datos de grafos Actualmente, las herramientas y tecnologías destinadas al análisis de big data o datos masivos están en constante evolución. Continuamente surgen y desaparecen herramientas para satisfacer nuevas demandas, al tiempo que las existentes se actualizan con nuevas funcionalidades (Casas et al., 2019, p. 259). 18.
[Audio] Los grafos constituyen una herramienta valiosa para resolver problemas de procesamiento complicado. Cuando se representa un problema en forma de grafo se aplican algoritmos específicos para su manejo. Al revisar la estructura de un grafo, es habitual tener que recorrerlo en su totalidad (Casas et al., 2019, p. 260). Las dos estrategias más empleadas son: DFS (depth first search) o búsqueda en profundidad prioritaria. Este método prioriza la apertura de una única vía de exploración a partir del nodo actual. BFS (breadth first search) o búsqueda en anchura prioritaria. Este método prioriza la búsqueda en paralelo de todas las alternativas posibles desde el nodo actual. (Casas et al., 2019, pp. 223-224) La ordenación topológica de grafos es una noción relevante, fundamentalmente en grafos del tipo DAG (dirigidos acíclicos), donde cada nodo depende de otro nodo y es un requisito previo para el siguiente. A través de la ordenación topológica, se establece la secuencia y dirección del grafo (Casas et al., 2019, p. 263). Otra estrategia consiste en el uso del algoritmo del camino más corto (shortest path, SP), que busca la mínima distancia entre dos vértices. Existen varios algoritmos para resolver este problema, uno de estos algoritmos es el de Dijkstra. En este enfoque, el algoritmo examina todos los nodos del grafo de manera secuencial, registrando los nodos visitados en una lista y quitándolos de otra lista que contiene los nodos pendientes de visita. Al mismo tiempo, va agregando a una tercera lista solo aquellos nodos que representan una distancia menor entre dos puntos (Casas et al., 2019, p. 265). Un desafío decisivo en el análisis de grafos es establecer la importancia relativa de cada vértice. Esto permite identificar actores clave en un contexto específico, ofreciendo información valiosa para áreas como marketing o publicidad, donde conocer estas relaciones puede resultar de gran utilidad (Casas et al., 2019, p. 265). 19.