Hoy en día, apenas puedes pasar una hora sin leer sobre la IA generativa. Aunque todavía estamos en la fase embrionaria de lo que algunos lo han apodado la “máquina de vapor” de la cuarta revolución industrial, no hay duda de que “GenAI” se perfila para transformar prácticamente todas las industrias, desde las finanzas y la atención médica hasta el derecho y más allá.
Las aplicaciones interesantes para el usuario pueden atraer la mayor parte de la fanfarria, pero las empresas que impulsan esta revolución son las que más se benefician actualmente. Precisamente este mes, el fabricante de chips Nvidia brevemente se convirtió la empresa más valiosa del mundo, un gigante de 3,3 billones de dólares impulsado sustancialmente por la demanda de potencia informática de IA.
Pero además de las GPU (unidades de procesamiento de gráficos), las empresas también necesitan infraestructura para gestionar el flujo de datos: para almacenar, procesar, entrenar, analizar y, en última instancia, desbloquear todo el potencial de la IA.
Una empresa que busca sacar provecho de esto es Una casauna startup californiana de tres años fundada por Vinoth Chandarquien creó el código abierto apache hudi proyecto mientras trabajaba como arquitecto de datos en Uber. Hudi aporta los beneficios de almacenes de datos a lagos de datoscreando lo que se conoce como un “lago de datos”, que permite respaldar acciones como la indexación y la realización de consultas en tiempo real en grandes conjuntos de datos, ya sean estructurados, no estructurados o semiestructurados.
Por ejemplo, una empresa de comercio electrónico que recopila continuamente datos de clientes que abarcan pedidos, comentarios e interacciones digitales relacionadas necesitará un sistema para absorber todos esos datos y garantizar que se mantengan actualizados, lo que podría ayudarle a recomendar productos basados en las necesidades de un usuario. actividad. Hudi permite la ingesta de datos de diversas fuentes con una latencia mínima, con soporte para eliminar, actualizar e insertar (“upsert”), lo cual es vital para estos casos de uso de datos en tiempo real.
Onehouse se basa en esto con un lago de datos totalmente administrado que ayuda a las empresas a implementar Hudi. O, como dice Chandar, “impulsa la ingesta y la estandarización de datos en formatos de datos abiertos” que pueden usarse con casi todas las herramientas principales en los ecosistemas de ciencia de datos, inteligencia artificial y aprendizaje automático.
“Onehouse abstrae la construcción de infraestructura de datos de bajo nivel, ayudando a las empresas de inteligencia artificial a centrarse en sus modelos”, dijo Chandar a TechCrunch.
Hoy, Onehouse anunció que ha recaudado 35 millones de dólares en una ronda de financiación Serie B mientras lanza dos nuevos productos al mercado para mejorar el rendimiento de Hudi y reducir los costos de procesamiento y almacenamiento en la nube.
Abajo en la casa del lago (datos)
Chandar creó Hudi como un proyecto interno dentro de Uber en 2016, y desde la empresa de transporte compartido donó el proyecto a la Fundación Apache en 2019, Hudi ha sido adoptado por el gustos de amazonDisney y Walmart.
Chandar dejó Uber en 2019 y, tras un breve paso por Confluent, fundó Onehouse. La startup surgió del sigilo en 2022 con 8 millones de dólares en financiación inicial, y poco después siguió con una ronda Serie A de 25 millones de dólares. Ambas rondas fueron codirigidas por Greylock Partners y Addition.
Estas firmas de capital de riesgo han vuelto a unir fuerzas para el seguimiento de la Serie B, aunque esta vez, Craft Ventures de David Sacks lidera la ronda.
“La casa del lago de datos se está convirtiendo rápidamente en la arquitectura estándar para las organizaciones que desean centralizar sus datos para impulsar nuevos servicios como análisis en tiempo real, aprendizaje automático predictivo y GenAI”, dijo Michael Robinson, socio de Craft Ventures, en un comunicado.
Por contexto, los almacenes de datos y los lagos de datos son similares en la forma en que sirven como depósito central para agrupar datos. Pero lo hacen de diferentes maneras: un almacén de datos es ideal para procesar y consultar datos estructurados históricos, mientras que los lagos de datos han surgido como una alternativa más flexible para almacenar grandes cantidades de datos sin procesar en su formato original, con soporte para múltiples tipos de datos y consultas de alto rendimiento.
Esto hace que los lagos de datos sean ideales para cargas de trabajo de inteligencia artificial y aprendizaje automático, ya que es más barato almacenar datos sin procesar previamente transformados y, al mismo tiempo, admiten consultas más complejas porque los datos se pueden almacenar en su forma original.
Sin embargo, la contrapartida es un conjunto completamente nuevo de complejidades en la gestión de datos, que corre el riesgo de empeorar la calidad de los datos dada la amplia gama de tipos y formatos de datos. Esto es en parte lo que Hudi se propone resolver al llevar algunas características clave de los almacenes de datos a los lagos de datos, como Transacciones ácidas para respaldar la integridad y confiabilidad de los datos, así como mejorar la gestión de metadatos para conjuntos de datos más diversos.
![Configuración de canalizaciones de datos en Onehouse](https://techcrunch.com/wp-content/uploads/2024/06/65b0f5ffe08c0ab6e68692ea_Ingest-in-minutes-p-1080-e1719227853762.png?w=680)
Al ser un proyecto de código abierto, cualquier empresa puede implementar Hudi. Un vistazo rápido a los logotipos en el sitio web de Onehouse revela algunos usuarios impresionantes: AWS, Google, Tencent, Disney, Walmart, ByteDance, Uber y Huawei, por nombrar algunos. Pero el hecho de que empresas de renombre aprovechen Hudi internamente es indicativo del esfuerzo y los recursos necesarios para construirlo como parte de una configuración de lago de datos local.
“Si bien Hudi ofrece una gran funcionalidad para ingerir, gestionar y transformar datos, las empresas aún tienen que integrar alrededor de media docena de herramientas de código abierto para lograr sus objetivos de un centro de datos de calidad de producción”, dijo Chandar.
Es por eso que Onehouse ofrece una plataforma nativa de la nube totalmente administrada que ingiere, transforma y optimiza los datos en una fracción del tiempo.
“Los usuarios pueden poner en funcionamiento un lago de datos abiertos en menos de una hora, con una amplia interoperabilidad con todos los principales servicios nativos de la nube, almacenes y motores de lagos de datos”, dijo Chandar.
La empresa se mostró tímida a la hora de nombrar a sus clientes comerciales, aparte de la pareja que figura en estudios de casocomo el unicornio indio Apna.
“Como empresa joven, no compartimos públicamente la lista completa de clientes comerciales de Onehouse en este momento”, dijo Chandar.
Con nuevos $35 millones en el banco, Onehouse ahora está expandiendo su plataforma con una herramienta gratuita llamada Onehouse LakeView, que brinda observabilidad de la funcionalidad de Lakehouse para obtener información sobre estadísticas de tablas, tendencias, tamaños de archivos, historial de línea de tiempo y más. Esto se basa en las métricas de observabilidad existentes proporcionadas por el proyecto principal de Hudi, brindando contexto adicional sobre las cargas de trabajo.
“Sin LakeView, los usuarios necesitan dedicar mucho tiempo a interpretar métricas y comprender profundamente toda la pila para determinar la raíz de los problemas de rendimiento o las ineficiencias en la configuración de la canalización”, dijo Chandar. “LakeView automatiza esto y proporciona alertas por correo electrónico sobre tendencias buenas o malas, señalando las necesidades de gestión de datos para mejorar el rendimiento de las consultas”.
Además, Onehouse también está presentando un nuevo producto llamado Table Optimizer, un servicio administrado en la nube que optimiza las tablas existentes para acelerar la ingesta y transformación de datos.
‘Abierto e interoperable’
No se puede ignorar a los innumerables otros jugadores de renombre en el espacio. Empresas como Databricks y Snowflake son cada vez más abrazando el paradigma de la casa del lago: A principios de este mes, Según se informa, Databricks distribuyó Mil millones de dólares para adquirir una empresa llamada Tabular, con miras a crear un estándar común para las casas del lago.
Seguramente Onehouse ha entrado en un espacio candente, pero espera que su enfoque en un sistema “abierto e interoperable” que facilite evitar la dependencia de un proveedor le ayude a resistir la prueba del tiempo. Básicamente, promete la capacidad de hacer que una única copia de los datos sea accesible universalmente desde prácticamente cualquier lugar, incluidos Databricks, Snowflake, Cloudera y los servicios nativos de AWS, sin tener que crear silos de datos separados en cada uno.
Al igual que con Nvidia en el ámbito de las GPU, no se pueden ignorar las oportunidades que le esperan a cualquier empresa en el espacio de gestión de datos. Los datos son la piedra angular del desarrollo de la IA y no tener suficientes datos de buena calidad es una de las principales razones. Por qué fracasan muchos proyectos de IAPero incluso cuando los datos están disponibles en grandes cantidades, las empresas aún necesitan la infraestructura para procesarlos, transformarlos y estandarizarlos para que sean útiles. Esto es un buen augurio para Onehouse y sus similares.
“Desde el punto de vista de la gestión y el procesamiento de datos, creo que los datos de calidad proporcionados por una base sólida de infraestructura de datos desempeñarán un papel crucial para llevar estos proyectos de IA a casos de uso de producción del mundo real, para evitar la entrada y salida de basura. problemas de datos”, dijo Chandar. “Estamos empezando a ver esa demanda en los usuarios de data lakehouse, mientras luchan por escalar el procesamiento de datos y consultar las necesidades para construir estas nuevas aplicaciones de IA en datos a escala empresarial”.