El personal de Alibaba ofrece un vistazo a la vida de la construcción de un LLM en China

Las empresas tecnológicas chinas están reuniendo todo tipo de recursos y talentos para reducir su brecha con OpenAI, y las experiencias de los investigadores de ambos lados del Océano Pacífico pueden ser sorprendentemente similares. Una publicación reciente en X de un investigador de Alibaba ofrece una visión poco común de la vida del desarrollo de grandes modelos de lenguaje en la empresa de comercio electrónico, que se encuentra entre una serie de gigantes chinos de Internet que se esfuerzan por igualar las capacidades de ChatGPT.

Binyuan Hui, investigador de procesamiento del lenguaje natural del gran equipo de modelos de lenguaje de Alibaba, Qwen, compartido su horario diario en X, reflejando un correo por el investigador de OpenAI Jason Wei que se volvió viral recientemente.

La mirada paralela a su día típico revela sorprendentes similitudes, con una hora de despertarse a las 9 a.m. y de acostarse alrededor de la 1 a.m. Ambos comienzan el día con reuniones, seguidas de un período de codificación, entrenamiento de modelos y lluvia de ideas con colegas. Incluso después de llegar a casa, continúan realizando experimentos por la noche y reflexionando sobre formas de mejorar sus modelos hasta bien entrada la hora de acostarse.

La diferencia notable es que Hui, el empleado de Alibaba, mencionó leer artículos de investigación y navegar por X para ponerse al día con “lo que está sucediendo en el mundo”. Y como señaló un comentarista, Hui no toma una copa de vino después de llegar a casa como lo hace Wei.

Este intenso régimen de trabajo no es inusual en el actual espacio LLM de China, donde talentos tecnológicos con títulos universitarios de primer nivel se están uniendo en masa a las empresas tecnológicas para construir modelos competitivos de IA. Hasta cierto punto, la exigente agenda de Hui refleja un impulso personal para igualar, si no superar, a las empresas de Silicon Valley en el espacio de la IA. Parece diferente de las “996” horas de trabajo involuntarias asociadas con tipos más “tradicionales” de negocios chinos en Internet que involucran operaciones pesadas, como los videojuegos y el comercio electrónico.

Mi día típico como miembro del personal técnico de Qwen (solo para mí):
[9:00am] Al despertarse, es posible que se quede en la cama 15 minutos más.
[9:30am] Tomar un taxi para ir al trabajo, navegar por X para ponerse al día con lo que sucede en el mundo, consultar @_jasonwei La última publicación de.
[10:00am] Trabajar…

—Binyuan Hui (@huybery) 21 de febrero de 2024

De hecho, incluso el renombrado inversor e informático en IA Kai-Fu Lee hace un esfuerzo increíble. Cuando entrevisté a Lee sobre su recién creado LLM unicorn 01.AI en noviembre, admitió que llegar tarde era la norma, pero que los empleados estaban trabajando duro y de buena gana. Ese día, uno de su personal le envió un mensaje a las 2:15 am para expresarle su entusiasmo por ser parte de la misión de 01.AI.

Esta ética laboral explica en parte la rápida velocidad a la que las empresas tecnológicas chinas pueden introducir LLM. Qwen, por ejemplo, tiene de código abierto una serie de modelos básicos entrenados con datos tanto en inglés como en chino. El más grande tiene 72 mil millones de parámetros, que son como el conocimiento que obtiene un modelo a partir de datos de entrenamiento históricos y definen su capacidad para generar respuestas contextualmente relevantes. El equipo también introdujo rápidamente aplicaciones comerciales. En abril pasado, Alibaba comenzó a integrar Qwen en su plataforma de comunicación empresarial Dingtalk y en el minorista en línea Tmall.

Hasta ahora no ha surgido ningún líder definido en el espacio LLM de China, y las empresas de capital de riesgo y los inversores corporativos están repartiendo sus apuestas entre múltiples contendientes. Además de crear su propio LLM internamente, Alibaba ha estado invirtiendo agresivamente en nuevas empresas como Moonshot AI, Zhipu AI, Baichuan y 01.AI.

Frente a la competencia, Alibaba ha estado tratando de hacerse un hueco y su estrategia multilingüe podría convertirse en un punto de venta. En diciembre, la empresa liberado un LLM para varios idiomas del sudeste asiático. Llamado SeaLLM, el modelo es capaz de procesar información en vietnamita, indonesio, tailandés, malayo, jemer, laosiano, tagalo y birmano. A través de su negocio de computación en la nube y la adquisición de la plataforma de comercio electrónico Lazada, Alibaba ha establecido una presencia considerable en la región y potencialmente puede presentar a SeaLLM estos servicios en el futuro.

El personal de Alibaba ofrece un vistazo a la vida de la construcción de un LLM en China

Matrix renueva el nombre de sus unidades en India y China para lograr una mayor ‘independencia organizacional’

La nave espacial Starfish extenderá la vida útil de un costoso satélite GEO en la misión 2026

EasyTranslate cree que ampliar los LLM con humanos le dará una ventaja sobre los servicios de traducción puramente de IA

La próxima transmisión exclusiva de la NFL de Peacock es en septiembre

La conducción autónoma de Apple Car podría tomar señales de la entrada de Siri y iPhone

El debut de Apple TV Plus en Friday Night Baseball no fue el jonrón que los fanáticos esperaban

Harness atrapa a Split.io, ya que apuesta por indicadores de funciones y experimentos

Es posible que Apple no realice un evento de primavera este año

Es posible que la oferta de IA generativa de Apple no funcione con el iPhone 15 estándar

Anduril avanza en el programa del Pentágono para desarrollar aviones de combate no tripulados

El personal de Alibaba ofrece un vistazo a la vida de la construcción de un LLM en China

Related Posts