Las empresas tecnológicas chinas están reuniendo todo tipo de recursos y talentos para reducir su brecha con OpenAI, y las experiencias de los investigadores de ambos lados del Océano Pacífico pueden ser sorprendentemente similares. Una publicación reciente en X de un investigador de Alibaba ofrece una visión poco común de la vida del desarrollo de grandes modelos de lenguaje en la empresa de comercio electrónico, que se encuentra entre una serie de gigantes chinos de Internet que se esfuerzan por igualar las capacidades de ChatGPT.
Binyuan Hui, investigador de procesamiento del lenguaje natural del gran equipo de modelos de lenguaje de Alibaba, Qwen, compartido su horario diario en X, reflejando un correo por el investigador de OpenAI Jason Wei que se volvió viral recientemente.
La mirada paralela a su día típico revela sorprendentes similitudes, con una hora de despertarse a las 9 a.m. y de acostarse alrededor de la 1 a.m. Ambos comienzan el día con reuniones, seguidas de un período de codificación, entrenamiento de modelos y lluvia de ideas con colegas. Incluso después de llegar a casa, continúan realizando experimentos por la noche y reflexionando sobre formas de mejorar sus modelos hasta bien entrada la hora de acostarse.
La diferencia notable es que Hui, el empleado de Alibaba, mencionó leer artículos de investigación y navegar por X para ponerse al día con “lo que está sucediendo en el mundo”. Y como señaló un comentarista, Hui no toma una copa de vino después de llegar a casa como lo hace Wei.
Este intenso régimen de trabajo no es inusual en el actual espacio LLM de China, donde talentos tecnológicos con títulos universitarios de primer nivel se están uniendo en masa a las empresas tecnológicas para construir modelos competitivos de IA. Hasta cierto punto, la exigente agenda de Hui refleja un impulso personal para igualar, si no superar, a las empresas de Silicon Valley en el espacio de la IA. Parece diferente de las “996” horas de trabajo involuntarias asociadas con tipos más “tradicionales” de negocios chinos en Internet que involucran operaciones pesadas, como los videojuegos y el comercio electrónico.
De hecho, incluso el renombrado inversor e informático en IA Kai-Fu Lee hace un esfuerzo increíble. Cuando entrevisté a Lee sobre su recién creado LLM unicorn 01.AI en noviembre, admitió que llegar tarde era la norma, pero que los empleados estaban trabajando duro y de buena gana. Ese día, uno de su personal le envió un mensaje a las 2:15 am para expresarle su entusiasmo por ser parte de la misión de 01.AI.
Esta ética laboral explica en parte la rápida velocidad a la que las empresas tecnológicas chinas pueden introducir LLM. Qwen, por ejemplo, tiene de código abierto una serie de modelos básicos entrenados con datos tanto en inglés como en chino. El más grande tiene 72 mil millones de parámetros, que son como el conocimiento que obtiene un modelo a partir de datos de entrenamiento históricos y definen su capacidad para generar respuestas contextualmente relevantes. El equipo también introdujo rápidamente aplicaciones comerciales. En abril pasado, Alibaba comenzó a integrar Qwen en su plataforma de comunicación empresarial Dingtalk y en el minorista en línea Tmall.
Hasta ahora no ha surgido ningún líder definido en el espacio LLM de China, y las empresas de capital de riesgo y los inversores corporativos están repartiendo sus apuestas entre múltiples contendientes. Además de crear su propio LLM internamente, Alibaba ha estado invirtiendo agresivamente en nuevas empresas como Moonshot AI, Zhipu AI, Baichuan y 01.AI.
Frente a la competencia, Alibaba ha estado tratando de hacerse un hueco y su estrategia multilingüe podría convertirse en un punto de venta. En diciembre, la empresa liberado un LLM para varios idiomas del sudeste asiático. Llamado SeaLLM, el modelo es capaz de procesar información en vietnamita, indonesio, tailandés, malayo, jemer, laosiano, tagalo y birmano. A través de su negocio de computación en la nube y la adquisición de la plataforma de comercio electrónico Lazada, Alibaba ha establecido una presencia considerable en la región y potencialmente puede presentar a SeaLLM estos servicios en el futuro.