Que es big data y para que sirve

Que es big data y para que sirve

apache hive

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

tipos de big data

Big Data es hoy en día la palabra de moda, y con la cantidad de datos que se generan cada minuto por parte de los consumidores y/o las empresas de todo el mundo, se puede encontrar un enorme valor en el análisis de Big Data.

El análisis de Big Data es un proceso utilizado para extraer información significativa, como patrones ocultos, correlaciones desconocidas, tendencias de mercado y preferencias de los clientes. La analítica de Big Data ofrece varias ventajas: puede utilizarse para mejorar la toma de decisiones y prevenir actividades fraudulentas, entre otras cosas.

Tomemos como ejemplo la plataforma de streaming de música Spotify.  La empresa tiene casi 96 millones de usuarios que generan una enorme cantidad de datos cada día. A través de esta información, la plataforma basada en la nube genera automáticamente sugerencias de canciones -a través de un motor de recomendación inteligente- basadas en los «me gusta», los «compartidos», el historial de búsqueda, etc. Lo que permite esto son las técnicas, herramientas y marcos de trabajo que son el resultado de la analítica de Big Data.

Si eres usuario de Spotify, seguro que te has topado con la sección de recomendaciones principales, que se basa en tus gustos, tu historial y otras cosas. Utilizar un motor de recomendación que aprovecha las herramientas de filtrado de datos que recogen datos y luego los filtran mediante algoritmos funciona. Esto es lo que hace Spotify.

características de los big data

Escanear activamente las características del dispositivo para su identificación. Utilizar datos de geolocalización precisos. Almacenar y/o acceder a la información de un dispositivo. Seleccionar contenidos personalizados. Crear un perfil de contenido personalizado. Medir el rendimiento de los anuncios. Seleccionar anuncios básicos. Crear un perfil de anuncios personalizados. Seleccionar anuncios personalizados. Aplicar la investigación de mercado para generar información sobre la audiencia. Medir el rendimiento de los contenidos. Desarrollar y mejorar los productos.

El término big data hace referencia a los grandes y diversos conjuntos de información que crecen a un ritmo cada vez mayor. Abarca el volumen de información, la velocidad o rapidez con la que se crea y recopila, y la variedad o el alcance de los puntos de datos que se abarcan (lo que se conoce como las «tres v» del big data). Los big data suelen proceder de la minería de datos y llegan en múltiples formatos.

Los big data pueden clasificarse como no estructurados o estructurados. Los datos estructurados consisten en información ya gestionada por la organización en bases de datos y hojas de cálculo; suelen ser de naturaleza numérica. Los datos no estructurados son información que no está organizada y no se ajusta a un modelo o formato predeterminado. Incluyen los datos recogidos en las redes sociales, que ayudan a las instituciones a recopilar información sobre las necesidades de los clientes.

la ciencia de los datos y el big data a…

¿Qué es el big data? Es una buena pregunta. Parece que hay tantas definiciones de big data como empresas, organizaciones sin ánimo de lucro, agencias gubernamentales y personas que quieren beneficiarse de él.

Una interpretación popular de big data se refiere a conjuntos de datos extremadamente grandes. Un informe del Instituto Nacional de Estándares y Tecnología definió los big data como «conjuntos de datos extensos -principalmente en las características de volumen, velocidad y/o variabilidad- que requieren una arquitectura escalable para un almacenamiento, manipulación y análisis eficientes». Algunos han definido los big data como una cantidad de datos que supera un petabyte -un millón de gigabytes-.

Estos datos proceden de innumerables fuentes: teléfonos inteligentes y publicaciones en las redes sociales; sensores, como señales de tráfico y contadores de servicios públicos; terminales de puntos de venta; dispositivos portátiles de los consumidores, como los medidores de peso; historiales médicos electrónicos; y un largo etcétera.

En las profundidades de estos datos hay inmensas oportunidades para las organizaciones que tienen el talento y la tecnología para transformar sus vastos almacenes de datos en una visión procesable, una mejor toma de decisiones y una ventaja competitiva.