viernes, 23 de agosto de 2019

Bombas Zip

Bombas Zip

Existen muchas maneras de atacar un ordenador. A veces nuestro dispositivo sencillamente se encuentra en el lugar y el momento equivocados y es objeto de ataques, y nuestra exitosa defensa depende de que tengamos un buen y actualizado antivirus, un firewall activo y un sistema operativo y aplicaciones actualizadas; en fin, que no haya huecos ni rendijas  (agujeros de seguridad) por donde pasar o introducir nada.
Pero en otras ocasiones la manera de atacar el dispositivo es engañando al usuario para que él mismo abra la puerta.
Generalmente la gente escucha de contaminarse por visitar páginas web infectadas (el primer caso) o por ejecutar un archivo ejecutable (.exe) o dándole click a un enlace (link) que aparentando otra cosa, en realidad pasan a activar un programa malicioso (el segundo caso). Aunque ambas formas necesitan de conocimiento y creatividad, estas últimas acciones, que requieren que el propio usuario apriete el botón que activa la bomba, son las más ingeniosas por su nivel de manipulación psicológica (ingeniería social[1]).
Existen muchos tipos de  malware y aunque la mayoría buscan un fin económico, también existen los que sólo desean dañar el ordenador objetivo.
En esta ocasión hablaré de una de las menos comunes,  la llamada bomba zip[2]
Los archivos comprimidos ya llevan mucho tiempo con nosotros en el mundo informático. Es un archivo que contiene uno o más archivos y/o carpetas y que ocupan un espacio que puede llegar a ser muy inferior al de su contenido en estado normal (descomprimido). Con un algoritmo de compresión estándar se pueden comprimir datos entre 0,5 y 20 veces su tamaño, dependiendo de lo que contenga. Uno de los formatos comprimidos más populares es el zip[3].
Usando ingeniería social el propio usuario activa una bomba cuyo efecto expansivo colapsa el ordenador al ‘descomprimir’ un archivo que crece continuamente de tamaño, más allá de cualquier capacidad en un ordenador. Este efecto no sólo bloquea la aplicación y el sistema (denegación de servicio) al requerir una gran cantidad de tiempo de proceso y demandar ingentes cantidades de espacio de memoria y disco. También puede llegar a impedir el inicio del ordenador, al no tener espacio para poder ejecutar las aplicaciones de arranque del sistema operativo, sino que incluso puede llegar a provocar problemas varios debidos a la alta temperatura que pudieran alcanzar algunos componentes del ordenador.
Hasta ahora las bombas zip utilizaban la recursividad, bucles que se van generando uno dentro de otro, volviendo al punto de partida haciendo así un ciclo infinito. Se tiene constancia de que existen desde 1996.
En el caso de las bombas Zip-Kuin, Cox y Ellingsen el archivo zip contiene una copia de sí mismo, de esa manera generan un círculo recursivo, pudiendo en teoría expandirse indefinidamente.
Se llegó a temer que las bombas zip se enviaran con el fin de colapsar a los antivirus, para después lograr introducir otro tipo de malware[4]. Pero actualmente la mayoría de los antivirus poseen la capacidad de analizar el comportamiento de descompresión de un archivo comprimido, permitiendo la ejecución de sólo algunas capaz de recursividad y deteniendo el proceso antes de que pudieran causar un desbordamiento de búfer, una condición de falta de memoria o un exceso de tiempo de ejecución del programa, de espacio en disco o memoria.
Un ejemplo famoso es el conocido como 42.zip[5], de autor desconocido, que posee una relación de compresión de 106.000 millones a uno; lo que ha sido todo un récord hasta ahora (la mayoría de zips usan el algoritmo de compresión DEFLATE cuyo ratio máximo de compresión está marcado en 1032 a uno). De los 42 kilobytes que ‘pesa’ el archivo comprimido se descomprime expandiendo 16 archivos, cada uno de los cuales alcanza los 4,3 gigabytes, totalizando 68 gigabytes. Pero el 42.zip posee 5 capas, por lo que en total tratará de expandirse hasta los 4,5 petabytes.
El detalle es que en muchas aplicaciones no es compatible o no se activa la recursividad; aún así sólo la primera capa tiene buenas posibilidades de lograr hacer daños. Además los antivirus actuales al detectar diversas capas de recursividad anulan el proceso.
David Fifield ha creado la que ahora se considera la bomba zip con mayor capacidad de expansión: el zbxl.zip. El archivo pesa 46 MB[6] (un tamaño que no se considera grande actualmente) y que puede expandirse hasta los 4,5 Petabytes[7] (si usamos como referencia discos duros de 2 TB, sería el equivalente a 2.200 discos).
Tal vez el aspecto más importante de esta nueva bomba es que no usa el recurso de la recursividad para alcanzar este nuevo récord, por lo que se descomprime en una sola ronda o capa, con el estándar algoritmo DEFLATE, que es compatible con la mayoría de los analizadores zip. En cambio, utiliza una técnica de superponer ficheros unos encima de otros, lo que le hace más difícil de detectar por parte de los actuales antivirus. Y ese es justamente el objetivo que ha tenido el investigador David Fifield, proporcionarle a las empresas creadoras de antivirus la posibilidad de tener material de estudio para que se preparen de forma preventiva, antes de que los ciberdelincuentes usen esta posibilidad.
Como curiosidad, hay quien ha creado bombas zips para defender sitios web  WordPress de las herramientas de escaneo de vulnerabilidades. Puede verse un ejemplo aquí.
Aunque las bombas zip no son una amenaza común, debemos estar concientes de su existencia.

Francisco Javier Castañé Sanz
Técnico Informático
23/08/2019


Fuentes:

#bombaszip, #malware, #zbxl.zip, #42.zip



[1] Ingeniería social, en el ámbito informático, es la práctica maliciosa que se realiza con el fin de obtener información, acceso o privilegios en sistemas informáticos sin que el usuario sea consciente realmente de todas las implicaciones y con fines beneficiosos sólo para quien está realizando la manipulación.
[2] También ha sido llamado el Zip de la muerte.
[3] Creado en 1989 por Phil Katz, pero originalmente sólo era una optimización de la velocidad de ejecución del ARC de Thom Henderson de 1985.
[4] Malware es un término informático que indica cualquier tipo de programa cuyo objetivo sea malintencionado.
[5] Está disponible libremente en la página de su autor (no recomiendo hacerlo, a menos que seas un experto)
[6] Esta versión usa extensiones de 64 bits. La versión de 32 bits (zblg.zip) pesa sólo 10 MB y se expande hasta los 281 TB; suficiente para colapsar a la gran mayoría de los ordenadores.
[7] Petabyte son 1000 Terabytes.

martes, 20 de agosto de 2019

IBM crea lengua electrónica capaz de probar líquidos con su inteligencia artificial

   Es increíble cómo avanza la tecnología. Uno de los sentidos que pareciera más difícil de convertir al mundo de la cibernética es el gusto. Les comparto esta noticia sobre una lengua electrónica que he encontrado en DigitalToo, escrito por 
"IBM Research ha desarrollado Hypertaste, una ‘lengua electrónica’ asistida por inteligencia artificial que, inspirada en el funcionamiento del sentido del gusto humano, permitirá detectar y analizar distintos tipos de líquido rápidamente y sin necesidad de acudir a un laboratorio."

  Hypertaste es el nombre del desarrollo de identificación de sabores con inteligencia artificial que puede tener multitud de usos en campos como la alimentación, la salud o la gestión medioambiental.

  Hypertaste es un pequeño dispositivo de forma circular que se introduce parcialmente en los líquidos que se quieren analizar. Para realizar el análisis y la detección de un fluido, esta ‘lengua electrónica’ utiliza la inteligencia artificial de IBM y un conjunto de sensores electroquímicos multisensitivos, cada uno de ellos formados por pares de electrodos.
  Los líquidos complejos contienen muchas moléculas diferentes y es la combinación de todas ellas lo que los distingue unos de otros. Por eso, para poder identificarlos, es necesario analizar sus moléculas en su conjunto. Al igual que el sentido del gusto o el olfato no tiene un receptor para cada molécula de un alimento, sino que reacciona a partir de una combinación específica, los sensores de Hypertaste son capaces de responder simultáneamente a diferentes compuestos químicos. De este modo, a través de la combinación de estos diferentes sensores, se puede realizar un análisis “holístico” del conjunto de componentes de un líquido y hallar su “huella dactilar”.
  Todos los datos recogidos se trasladan a través de una aplicación móvil a la nube, donde un algoritmo de aprendizaje automático compara esta huella digital con una base de datos con información sobre líquidos conocidos. El algoritmo determina qué líquidos de la base de datos son similares químicamente al líquido que se está investigando. El resultado obtenido se envía directamente a un dispositivo inteligente, como puede ser un teléfono móvil.
  Una de las ventajas de Hypertaste es que es extremadamente rápido. Todo este proceso de identificación dura menos de un minuto, desde el momento en que el dispositivo está en contacto con el líquido hasta que ofrece un resultado. Este es un tiempo récord, especialmente si se tiene en cuenta que los sistemas convencionales de laboratorio suelen requerir horas. Además, por su tamaño reducido, es una herramienta portátil y fácil de usar.
  Un aspecto clave en todo este proceso es el “entrenamiento” que recibe el algoritmo de aprendizaje automático que utiliza Hypertaste. Tal como sucede con un sommelier, que con el tiempo y la práctica aprende la complejidad de la degustación del vino, el entrenamiento de Hypertaste es esencial para que pueda identificar los diferentes líquidos. En el caso de Hypertaste, este “entrenamiento” consiste en medir muchas veces el conjunto de señales de voltaje producido por los sensores del dispositivo. Cada sensor (es decir, cada par de electrodos) reacciona a los iones disueltos en el líquido estudiado con una señal de voltaje. La huella dactilar de un líquido no es más que el resultado de la combinación de todas estas señales de voltaje que el líquido en cuestión genera en los sensores de Hypertaste. En resumen, la tarea de entrenar el algoritmo de IA de Hypertaste se centra en “enseñarle” a reconocer el patrón característico de señales de voltaje de un líquido específico a través de la exposición reiterada (a través de múltiples mediciones) a ese patrón.




martes, 13 de agosto de 2019

Big data: una "revolución industrial" en la gestión de los datos digitales

   Les comparto un interesante artículo sobre el Big Data en la industria, escrito en el 2012 por la Fidelity International (una gestora internacional de fondos de inversión).

Big data: una "revolución industrial" en la gestión de los datos digitales 

"Hay gran cantidad de datos disponibles. Lo que escasea es la capacidad de extraer conocimiento de ellos"Val Harian, economista jefe de Google


EN POCAS PALABRAS

  • Big data es el término inglés que designa los conjuntos de datos de gran tamaño y generalmente desestructurados que resultan difíciles de manejar usando las aplicaciones de bases de datos convencionales.
  • El 80% de los datos que se generan en el mundo están desestructurados. Los datos desestructurados crecen 15 veces más rápido que los estructurados.
  • Esto plantea un enorme problema técnico a las empresas que intentan analizar sus datos propios.
  • Algunos ejemplos de big data son los siguientes: las consultas y resultados de los motores de búsqueda, los datos de las redes sociales (como los tuits), los datos meteorológicos, los datos astronómicos, la vigilancia militar, los datos económicos y bursátiles, los historiales médicos, los experimentos físicos (Gran Colisionador de Hadrones), los archivos fotográficos, la radio y la televisión, los vídeos (CCTV y YouTube) y los datos sobre transacciones.
  • Si estos ingentes volúmenes de datos pueden capturarse y analizarse eficazmente, podrían mejorar la productividad y la competitividad de las empresas en una amplia gama de sectores.
  • También encierran un gran potencial de creación de valor en el sector público y el privado. Las empresas tecnológicas especializadas en sistemas de información están construyendo grandes centros de procesamiento de datos para intentar sacar partido a este mercado.
  • Las empresas de distribución y los fabricantes están usando soluciones para grandes conjuntos de datos con el fin de mejorar la gestión de la cadena de suministro.
  • Estos datos pueden ayudar a los equipos directivos de las empresas a tomar decisiones mejor informadas y a optimizar el gobierno corporativo creando sistemas de gestión de los riesgos más eficaces.
  • La rentabilidad potencial es elevada para las empresas que suministran soluciones para grandes conjuntos de datos, entre las que se encuentran los gigantes informáticos actuales así como empresas de reciente creación y actores más pequeños. El análisis fundamental es esencial para determinar quiénes serán los grandes beneficiados. 

   Cada día se genera la increíble cantidad de 2,9 trillones de bytes de datos (Un trillón es 10 elevado a la 18ª potencia, es decir, un 1 seguido de 18 ceros), un volumen difícil de imaginar. Para ponerlo en perspectiva, eso equivale a 5.800 millones de discos duros de ordenadores de tamaño medio. Pero esta cifra impresiona aún más si tenemos en cuenta que el 90% de los datos del mundo se crearon sólo en los dos últimos años1 y que el 80% de estos datos están desestructurados2, lo que dificulta su interpretación con los programas de bases de datos tradicionales. Este fenómeno ha dado lugar a un nuevo concepto: big data. Generalmente complejos y desestructurados, los big data suponen un desafío tecnológico de primer orden para las empresas, que tienen dificultades para capturarlos, analizarlos y explotarlos. Los expertos creen que estamos entrando en una "revolución industrial de los datos" que brindará importantes recompensas a las empresas y los inversores.

INTRODUCCIÓN A BIG DATA

   El volumen de datos que se genera cada día es tan enorme que las tecnologías de bases de datos actuales se están quedando obsoletas rápidamente. La digitalización ha acelerado el crecimiento de los datos en todas las organizaciones, sectores y economías sin excepción. Empresas, organismos públicos, proveedores de estudios de mercado y meteorólogos están librando una batalla tecnológica para descifrar los grandes conjuntos de datos o big data y extraer parte de su valor. La capacidad para almacenar, consolidar y fusionar información ha hecho que numerosas empresas tecnológicas construyan centros de datos para satisfacer una demanda que crece con fuerza.
   Todos los días se escriben comentarios en Facebook y en Twitter y se suben vídeos a YouTube, pero las redes sociales son sólo uno de los muchos catalizadores de los big data. Los sensores conectados en red recogen ingentes cantidades de datos de los teléfonos móviles, los contadores del gas y la luz, los motores aeronáuticos, las plataformas de perforación y los equipos atmosféricos. Los satélites registran datos meteorológicos y geográficos, así como información para uso militar. Se crean "datos de desecho" como subproductos de las actividades cotidianas y se almacenan datos de transacciones, por ejemplo los que recogen las cajas de los supermercados.
    A medida que los formatos digitales se vuelven más sofisticados, se crean más y más datos. Así, un segundo de vídeo en alta definición ocupa 2.000 veces más bytes que una página de texto3. La creación de toda esta información está impulsando un rápido avance tecnológico en el terreno del almacenamiento de datos. En 1980, el primer disco duro de un gigabyte, el IBM 3380, tenía el tamaño de un frigorífico, pesaba unos 250 kg y costaba 40.000 dólares4. Hoy, se puede conseguir un gigabyte de almacenamiento en una tarjeta de memoria del tamaño de un sello de correos por unos pocos dólares5 y con determinadas cuentas de correo electrónico, el almacenamiento en línea es, de hecho, gratuito (hasta cierta cantidad).

EL CONCEPTO BIG DATA NO SÓLO TIENE QUE VER CON EL TAMAÑO

   Según IDC, la producción digital total del mundo fue de unos 180 exabytes en 2006 y creció hasta 1.800 exabytes en 2011, es decir, se multiplicó por diez en cinco años (un exabyte = mil millones de gigabytes). El volumen total de datos se prevé que alcance los 35.000 exabytes en 2020, lo que supone multiplicar dicha cifra por veinte durante los próximos diez años. Sin embargo, no es sólo la capacidad de almacenamiento lo que está constriñendo el fenómeno big data. También se plantean desafíos a la hora de usar e interpretar los grandes conjuntos de datos. Para entender el concepto big data, analicemos sus tres características esenciales: volumen, variedad y velocidad:
   Volumen: el crecimiento exponencial de los volúmenes de datos es una cuestión fundamental que está impulsando mejoras en las redes de comunicaciones, lideradas por empresas como Cisco Systems, y mayores velocidades en los accesos de banda ancha, lideradas por empresas como Virgin Media. Sin embargo, es un error creer que el volumen es la única característica del concepto big data que merece atención. Se podría afirmar incluso que es la menos importante desde el punto de vista de la utilidad para las empresas. En la variedad y la velocidad es donde probablemente se puede encontrar la mayor cantidad de valor añadido.
   La variedad describe el número de tipos diferentes de datos. Interpretar y analizar diferentes tipos de datos a la vez puede generar grandes ventajas. Por ejemplo, la red social Facebook almacena una enorme cantidad de información sobre sus usuarios. Guarda diferentes tipos de datos: sexo, edad, domicilio, estado civil, película o libros favoritos e incluso en qué marcas sus usuarios han pulsado en el botón "Me gusta". Las empresas pueden saber a quién "le gusta" su marca, el grupo de edad al que pertenece esa persona y si tiene más probabilidades de ser hombre o mujer. Así, pueden enfocarse de forma selectiva en este segmento con campañas de marketing personalizadas.
   La velocidad se refiere a la vida útil de los datos, ya que no tiene mucho sentido tener almacenados datos desactualizados. Por ejemplo, en EE.UU. las empresas de atención sanitaria descartan hasta el 90% de los datos que generan, gran parte de los cuales procede de las emisiones de vídeo en tiempo real durante las intervenciones quirúrgicas. Del mismo modo, las tiendas a menudo borran las grabaciones de sus cámaras de seguridad cuando ha transcurrido cierto tiempo. 

EL FENÓMENO BIG DATA VA A CRECER CON FUERZA 

   Se espera que el fenómeno big data impulse las rentabilidades de toda una generación de nuevas empresas informáticas con capitalizaciones de varios miles de millones de dólares. Es el segmento del mercado de los sistemas de información que más crece en todo el mundo. Los analistas creen que el mercado potencial total está valorado en 100.000 millones de dólares6
   Empresas como General Electric, IBM, Oracle, Microsoft, SAP y Symantec han invertido mucho en centros de procesamiento de datos diseñados para interpretar big data. Estas empresas están dispuestas a pagar una prima para contratar a los profesionales más brillantes. Oracle, Microsoft, IBM y SAP han gastado conjuntamente más de 15.000 millones de dólares en adquisiciones de empresas tecnológicas especializadas en herramientas de inteligencia de negocio7. Hay puestos para programadores, estadísticos, analistas cuantitativos, econometristas y analistas de extracción de datos. El mercado de los grandes conjuntos de datos tiene su propia cadena de suministro y permite beneficiarse a las empresas, tanto si están especializadas en hardware o infraestructuras como en software o servicios.
   La capacidad tecnológica con que cuentan estas compañías es impresionante y ya son capaces de generar resultados beneficiosos para las empresas clientes que contratan sus servicios. Los datos de los sensores colocados en los motores aeronáuticos podrían estudiarse, por ejemplo, para mejorar el consumo de combustible de un avión de pasajeros. El análisis de datos también puede ser ventajoso para el sector del petróleo y el gas, ya que puede contribuir a encontrar formas de prolongar la vida útil de los campos petrolíferos y gasistas y la recuperación de los recursos naturales. Cara al futuro, estas grandes empresas tecnológicas están en una buena posición para desarrollar lucrativos negocios de consultoría basados en su capacidad para analizar grandes conjuntos de datos.
   Las empresas de estudios de mercado también están intentando penetrar en esta área. Internet ha incrementado espectacularmente el número de métodos para llegar hasta una audiencia y comercializar productos, ya que cada página que se ve y cada clic que se hace quedan grabados. Muchas empresas de marketing están aprovechando las ingentes cantidades de datos disponibles a través de líderes de las búsquedas en Internet y las redes sociales como Google y Facebook.  
   La enorme cantidad de datos que existe puede plantear un gran problema a las empresas. El peligro es que las empresas no sean capaces de afrontar el desafío, desaprovechen oportunidades y pierdan su ventaja competitiva. Las grandes empresas de Internet, como Amazon.com, ya usan los datos que recogen de sus clientes para sugerirles productos que tal vez también quieran comprar. Sin embargo, los costes de establecimiento y la infraestructura necesaria plantean problemas a las empresas más pequeñas. Una solución alternativa es externalizar el análisis de datos y el marketing personalizado con proveedores especializados en ese campo.

LAS EMPRESAS PEQUEÑAS ENCIERRAN UN GRAN POTENCIAL

   Aunque algunas de las empresas mencionadas, como SAP y Oracle, ya se consideran gigantes informáticos, muchas empresas más pequeñas y de reciente creación podrían entrar en este grupo. El potencial de crecimiento del mercado de big data es inmenso y hay espacio para nuevos operadores con soluciones innovadoras. Algunas populares herramientas de bases de datos de código abierto como Hadoop están al alcance de las nuevas empresas. También hemos visto ejemplos de nuevas empresas especializadas en big data que se han convertido en multinacionales. De hecho, la amenaza de los nuevos jugadores plantea un problema a las grandes empresas informáticas que intentan entrar en este campo. Como resultado de ello, han aumentado las adquisiciones protagonizadas por grandes empresas tecnológicas. Un buen ejemplo es Autonomy, una empresa informática británica fundada en 1996 en Cambridge. Fue comprada por Hewlett-Packard en 2011 por 11.000 millones de dólares8. Poco después de la operación, HP anunció una nueva plataforma de análisis de grandes conjuntos de datos llamada HP Next Generation Information Platform. Otras empresas tecnológicas pequeñas han visto cómo su cotización despuntaba a pesar de que todavía podrían no ser objetivos de adquisición. Un buen ejemplo es Microgen, una empresa británica de software especializada en aplicaciones que permiten a las empresas ejecutar en tiempo real procesos que anteriormente tendrían que haberse llevado a cabo en lotes y de noche. Recientemente, el software de Microgen alcanzó con éxito las 7.000 millones de transacciones a la hora y es utilizado por muchas empresas líderes como bancos, operadores de transporte y logística y empresas de contenidos digitales. Para una destacada empresa de contenidos digitales, Microgen diseñó un sistema de gestión de derechos de autor que procesa millones de canciones, aplicaciones y otras descargas cada día.

ALGUNAS EMPRESAS SE DEDICAN A LA GESTIÓN DE DATOS

   También están las empresas en las que el análisis de datos es la piedra angular de su modelo de negocio, por ejemplo Experian, que ayuda a otras empresas a gestionar el riesgo crediticio y a prevenir el fraude. En el terreno del consumo, ayuda a las personas a gestionar su perfil crediticio y a impedir el robo de identidades. Experian usa sus herramientas de gestión y análisis de datos para vender productos a empresas en una amplia gama de mercados —desde negocios de distribución a proveedores de servicios financieros— en más de 80 países. Ahora se está expandiendo a mercados emergentes como Brasil, país en el que no estaba presente en 2006 y donde ya genera ingresos por valor de más de 1.000 millones de dólares. 

EL USO DE BIG DATA PUEDE DAR A LA GRAN DISTRIBUCIÓN VENTAJAS COMPETITIVAS

   El uso de big data puede ayudar a las empresas de distribución a automatizar, optimizar y afinar inventarios basándose en la demanda actual. Las grandes cadenas de supermercados como Wal-Mart ya han implantado técnicas de gestión de big data para optimizar su cadena de suministro. El almacén de datos de Wal-Mart es enorme y tiene capacidad para 2,5 petabytes (1 petabyte = mil billones de bytes, un 1 seguido de quince ceros) de información, fundamentalmente de los tickets de caja; equivale a alrededor de la mitad de todas las cartas repartidas por los servicios postales de EE.UU.9 Lo que ha dado a Wal-Mart una ventaja sobre sus competidores es la forma en que innovó a la hora de expandir sus sistemas de intercambio de datos para conectar su cadena de suministro electrónicamente. Dio a sus proveedores un "enlace de distribución minorista" para que vieran cuándo era necesario reponer existencias, en lugar de esperar a que Wal-Mart hiciera un pedido. Estas técnicas de "gestión de inventarios por parte del proveedor" no son nuevas y existen desde la década de 1980, pero Wal-Mart las ha implantado a una escala enorme.
   En general, el data mining o extracción de datos es una práctica habitual en los supermercados. Les confiere la capacidad de registrar las preferencias de los clientes, analizar comportamientos de compra y fijar precios en consonancia, pero sobre todo ha permitido a los establecimientos diferenciarse, ofrecer los incentivos adecuados para atraer a los clientes y competir sobre una base segmentada de comparación de precios. Una innovación reciente ha venido de la mano de los datos almacenados por los programas de tarjetas de fidelización. Las cadenas de supermercados británicas como Tesco y Sainsbury's utilizan regularmente los historiales de compra de las tarjetas de fidelización para adaptar las promociones a cada cliente en forma de cupones.
   Otras cadenas, como las de moda, también están adentrándose en el mundo de los big data. Un ejemplo es Inditex, propietaria de las tiendas Zara, que recoge datos de sus tickets de caja para identificar la demanda de determinadas prendas. Controla la mayor parte de su cadena de suministro y utiliza una estrategia de producción ajustada (JIT) que previene la acumulación indeseada de existencias. También significa que si identifica una nueva tendencia, tarda unas pocas semanas en desarrollar un producto y tenerlo en la tienda, mientras que en el sector se considera que la media son seis meses.

LOS FABRICANTES UTILIZAN BIG DATA PARA MEJORAR LA EFICIENCIA Y LOS COSTES

   Desde los albores de la informática, los fabricantes han sido uno de los primeros y más activos usuarios de los datos para impulsar la calidad y la eficiencia de su producción. Sin embargo, dado que los datos siguen creciendo exponencialmente y la competencia internacional no deja de intensificarse, estas empresas sienten la presión de mejorar continuamente su rendimiento.
   El análisis de sus big data puede acelerar considerablemente la velocidad con que desarrollan un producto. También permite a los diseñadores y fabricantes compartir datos de forma rápida y económica, así como crear simulaciones para probar diferentes diseños. Tanto el sector aeroespacial como los fabricantes de coches analizan sus big data para estos fines.
   En concreto, los fabricantes de coches han invertido con fuerza para intentar optimizar los costes de su cadena de suministro usando sistemas desarrollados internamente que controlan el precio y la calidad de cada pieza suministrada. Toyota, Fiat y Nissan aseguran que han reducido los plazos de desarrollo entre un 30% y un 50%. Aunque la recompensa es ciertamente grande, se necesitan grandes cantidades de dinero para invertir en estos sistemas y no todos los fabricantes tienen presupuesto para desarrollarlos internamente.
   Por lo tanto, muchos fabricantes ven ventajas en externalizar el análisis de los grandes conjuntos de datos a empresas tecnológicas especializadas. En un entorno marcado por unas condiciones económicas difíciles y la cada vez mayor competencia de los mercados emergentes, los fabricantes de los países desarrollados están obligados a reducir los costes y mejorar la eficiencia. Externalizar la gestión de sus big data constituye una opción económicamente interesante.

BIG DATA Y LA NUBE

   Uno de los dilemas a los que se enfrentan las empresas es que no pueden costearse la infraestructura física para interpretar grandes volúmenes de datos desestructurados. Muchos proveedores de almacenamiento de datos ofrecen ahora soluciones en la nube como parte de su gama de productos y las comercializan entre los clientes como soluciones asequibles y accesibles
   En esencia, las empresas alquilan espacio en potentes servidores a los que pueden acceder en línea. Estos servidores están equipados con sofisticadas aplicaciones que han sido diseñadas especialmente para manejar grandes volúmenes de datos. La ventaja para los clientes es que pueden conseguir resultados rápidos, a menudo en tiempo real, y que es una solución muy accesible (algunas empresas, como SAP, ofrecen acceso a través del teléfono móvil).

EL USO DE BIG DATA PUEDE AYUDAR A MEJORAR LA GESTIÓN EMPRESARIAL

   El análisis de grandes conjuntos de datos no sólo ofrece un inmenso atractivo comercial a las empresas, sino que también puede ayudar a mejorar los procesos de gestión. Como hemos comentado, las empresas de distribución y los fabricantes procesan sus big data para optimizar su cadena de suministro y sus inventarios. También se pueden usar big data para potenciar los flujos de caja y reducir todo lo posible el ciclo de conversión de efectivo de una empresa, es decir, el tiempo que pasa entre que la tesorería se gasta en el proceso de producción y se recibe el dinero de los clientes. El uso de big data también puede ayudar a mejorar aspectos del gobierno corporativo creando determinados controles de riesgos. Un problema común es que las decisiones de gestión pueden estar demasiado pegadas a los acontecimientos y, a veces, estar mal fundamentadas. Empresas como SAP han desarrollado herramientas empresariales que mantienen a los directivos bien informados con datos en tiempo real (véase caso práctico arriba).
   Poner big data a disposición de toda una empresa tiene ventajas considerables. Por ejemplo, puede animar a divisiones con peores resultados a mejorar sin intervención directa de la dirección de la empresa. Una aplicación común es clasificar los objetivos de ventas por división o incluso por empleado. Está aumentando la demanda de software que pueda ofrecer este tipo de estadísticas e indicadores de rendimiento. También se realiza un uso generalizado de big data en el sector de la selección de personal y en los departamentos de RR.HH. de grandes empresas. Los candidatos son filtrados y los CV son analizados automáticamente con aplicaciones especializadas.

EL SECTOR PÚBLICO

   El sector público genera y almacena enormes cantidades de datos. De hecho, las instituciones llevan usando big data algún tiempo para un amplio abanico de aplicaciones, desde inteligencia militar a gestión de programas espaciales. En Europa, muchos países cuentan con sistemas nacionales de salud y a menudo estos suelen ser grandes, complejos (cuando no mastodónticos) y caros. Se pueden usar big data como herramienta de gestión para reducir las listas de espera y mejorar la forma en que se recuperan y actualizan los registros de los pacientes.
   En un futuro cercano, se generalizarán las licitaciones para contratar soluciones de big data en el sector público. De hecho, es probable que haya incluso consultores de big data especializados en el sector público. Esta área aún está dando sus primeros pasos actualmente, pero ofrece unas rentabilidades potenciales tremendas.

CONCLUSIÓN 

   Si los grandes conjuntos de datos desestructurados o big data pueden procesarse, analizarse y explotarse eficazmente, podrían mejorar la productividad y la competitividad de las empresas, los sectores y, en última instancia, de economías enteras. Las empresas de distribución y los fabricantes ya están usando big data para mejorar la cadena de suministro y acelerar el desarrollo de nuevos productos. Los equipos directivos de las empresas también emplean big data para controlar el rendimiento y hacer posible la toma de decisiones efectivas en tiempo real. Las ventajas del análisis de los grandes conjuntos de datos desestructurados no se restringen al sector privado: pueden mejorar también los servicios públicos y, en especial, la atención sanitaria.
   El potencial de rentabilidad para los inversores reside en identificar a los beneficiarios de lo que parece que se convertirá en un sector valorado en muchos miles de millones de dólares. La selección de valores es determinante, ya que los ganadores serán tanto gigantes tecnológicos actuales como empresas más pequeñas de rápido crecimiento. Las operaciones de adquisición probablemente sean un rasgo positivo de este sector. La gestión de grandes conjuntos de datos ofrece grandes oportunidades.

CASO PRÁCTICO: SAP

SAP es una empresa multinacional de software con sede en Alemania. Está especializada en el desarrollo de software empresarial que ayuda a sus clientes a gestionar sus operaciones de negocio y las relaciones con sus clientes. La empresa es muy conocida por sus soluciones de almacenamiento de datos. Recientemente desarrolló un nuevo producto denominado SAP HANA (High Speed Analytic Appliance). Una de las mayores frustraciones de muchos directivos es que sus sistemas tradicionales basados en unidades de disco duro no procesan los datos con la suficiente rapidez. A menudo, se necesita información sobre las operaciones de negocio mientras éstas se desarrollan, no cuando los acontecimientos ya han sucedido. SAP HANA utiliza tecnología In-Memory, compresión de datos y procesamiento de datos en paralelo para conseguir resultados rápidos en tiempo real. Esto significa que las empresas pueden tomar decisiones rápidas cuando se tienen que tomar, dando así a su negocio una ventaja frente a sus competidores. En el conjunto de la empresa, SAP genera alrededor del 19% de los ingresos por ventas de licencias nuevas con los productos de inteligencia y análisis de negocio. Su nueva solución SAP HANA ya acumula pedidos por valor de 1.500 millones de euros, una cantidad impresionante para un producto que lleva a la venta menos de un año. La división móvil de SAP también tiene proyectos en marcha por valor de 800 millones de euros7, con los que pretende suministrar información estratégica a los usuarios de telefonía móvil en cualquier momento, en cualquier lugar y en cualquier dispositivo. Ambas líneas de productos deberían ser un área clave de crecimiento estructural para la empresa. 

EL FENÓMENO BIG DATA NO ES ALGO COMPLETAMENTE NUEVO

La capacidad de analizar eficazmente grandes cantidades de datos dio a la NASA ventaja durante la carrera espacial, sobre todo cuando construyó los cohetes Saturno V que llevaron al hombre a la luna. Durante la Guerra Fría, tanto EE.UU. como la Unión Soviética procesaban grandes cantidades de datos de vigilancia militar durante las operaciones de información y durante décadas, las previsiones meteorológicas diarias han corrido a cargo de enormes superordenadores. Las casas de apuestas y los casinos han desarrollado y mejorado continuamente sus modelos estadísticos para ir un paso por delante de los apostadores, mientras que los equipos deportivos (en el béisbol, en el ciclismo y cada vez más en el fútbol) utilizan analistas y estadísticos con la esperanza de conseguir una ventaja competitiva, algo que se popularizó con el libro (y la película) Moneyball: Rompiendo las reglas, de Michael Lewis.  

ENTENDER LA TECNOLOGÍA

La tecnología NoSQL es utilizada ampliamente por empresas como Google y Amazon. Difiere de las bases de datos relacionales que emplean tablas, esquemas o filas para almacenar datos y después interpretarlos mediante SQL, un lenguaje de consulta estructurado. En lugar de tomar datos, definir relaciones y almacenarlos en una base de datos para su posterior análisis, NoSQL puede analizar los datos en origen. Esto confiere a este lenguaje una ventaja de tiempo real sobre las tecnologías actuales y le hace más capaz de procesar grandes cantidades de datos desestructurados. Por ejemplo, Google analizará las páginas web y documentos buscando una palabra clave en lugar de consultar una base de datos relacional centralizada. Hadoop es probablemente la tecnología para big data más conocida. Es un marco de software de código abierto gratuito y ampliamente disponible que nació en el seno de Google y que es utilizado profusamente por Yahoo. El procesamiento masivo en paralelo (MPP) es lo que ha hecho a Hadoop tan popular. Gracias a MPP, se pueden utilizar muchos procesadores informáticos funcionando en paralelo para analizar datos, mientras que en el pasado eran grandes superordenadores los que realizaban esta tarea. Gracias al uso que hace Hadoop del MPP, las empresas pequeñas pueden utilizar sus redes de ordenadores de oficina para analizar datos complejos a un coste relativamente reducido. 

Fuentes:
1.IBM, Bringing big data to the enterprise, [página web] (2012) <http://www-01.ibm.com/software/data/bigdata/>; un disco duro medio se define como una unidad con una capacidad de 500 GB.
2.P. Zikopoulousa y C. Eaton, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, (McGraw-Hill, 2011).
3.McKinsey Global Institute, Big data: The next frontier for innovation, competition, and productivity (junio de 2011).
4.The Computer History Museum, Time line of computer history, [página web] (2012) <http://www.computerhistory.org/timeline>.
5.Amazon.com; búsqueda: ‘1GB micro SD cards’, [página web] (2012) <http://www.amazon.com/SanDisk-MicroSD-SDSDQ-1024-A10M-Retail-Package/dp/B000EEZCEG>; acceso 07/08/2012.
6.BofA Merrill Lynch, Big Data II – New Themes, New Opportunities, [informe] (20/03/2012).
7.FILLimited, 31.07.2012.
8.Financial Times, Autonomy shares soar on $11bn HP deal, 19/08/2011.
9.McKinsey Global Institute, loc. cit.  

El artículo original se puede descargar aquí