Modelos de IA más grandes… problemas más grandes
Los dos años transcurridos desde que OpenAI impulsó la era de la inteligencia artificial generativa con la introducción de ChatGPT fueron una lucha arrebatada por llevar la delantera tecnológica. OpenAI y sus principales rivales, Anthropic, Google y Meta, produjeron una oleada de modelos de inteligencia artificial de vanguardia, cada uno más hábil que el anterior. Ahora, el dogma de Silicon Valley es que más potencia informática, más datos y modelos más grandes conducirán a mejoras tan fundamentales en la IA que la tecnología transformará industrias enteras en los próximos años.
Y, sin embargo, esa velocidad de desarrollo comenzó a disminuir incluso antes del segundo aniversario de ChatGPT. En 2024, OpenAI y otras dos empresas líderes en la IA encontraron obstáculos en su acelerada carrera: en OpenAI y Google, algunos softwares no cumplieron con las expectativas internas, mientras que el cronograma de un esperado modelo de Anthropic (un competidor creado por exempleados de OpenAI) se retrasó después de haberse anunciado. Si el progreso en la IA generativa se desacelera de forma más prolongada, pondrá en duda si la tecnología podrá cumplir alguna vez las ambiciosas promesas que han hecho los principales innovadores de la industria. Así, el principal desafío del campo en este año es identificar formas de impulsar el boom de la IA a su siguiente etapa.
Las empresas enfrentan varios obstáculos. Se ha vuelto más difícil encontrar nuevas fuentes de datos de entrenamiento, generados por humanos y de alta calidad, para construir sistemas de IA más avanzados. Además, incluso mejoras modestas en el rendimiento de la IA pueden no ser suficientes para justificar los tremendos costos asociados con la creación y operación de nuevos modelos. Dario Amodei, director ejecutivo de Anthropic, ha dicho que cuesta unos 100 millones de dólares entrenar un modelo de última tecnología, y prevé que esa cantidad llegue a los 100 mil millones de dólares en los próximos años. A su vez, la directora financiera de OpenAI, Sarah Friar, dice que sería razonable anticipar que el desarrollo del próximo modelo de vanguardia de la compañía costará miles de millones de dólares, y que todavía hay una necesidad de “modelos cada vez más grandes que son cada vez más costosos”.
Estos problemas plantean dudas sobre los miles de millones de dólares que ya se han invertido en la IA y sobre el objetivo que estas empresas persiguen agresivamente: la llamada inteligencia artificial general (AGI, por sus siglas en inglés), que podría igualar o superar a los humanos en una amplia gama de tareas. Los directivos de OpenAI y Anthropic han dicho anteriormente que la AGI puede estar a solo unos años de distancia, y ambos han rechazado cualquier sugerencia de que están enfrentando obstáculos. Otros líderes de la industria, sin embargo, adoptan un tono más humilde. “Creo que el progreso se va a hacer más difícil”, admitió en diciembre el director ejecutivo de Google, Sundar Pichai, en una entrevista en la Cumbre DealBook del New York Times. De cara a 2025, dijo, “ya no hay frutos al alcance de la mano, la cuesta es más empinada”, refiriéndose al esfuerzo requerido para avanzar.
En una industria que se enorgullece de su innovación, las empresas están buscando diferentes formas de seguir avanzando en los modelos de IA. Los esfuerzos en curso incluyen lograr que las computadoras imiten el modo en que los humanos reflexionan sobre un problema para resolverlo mejor, construir modelos que sean realmente buenos en ciertos tipos de tareas y entrenar la inteligencia artificial con datos generados por la propia IA.
OpenAI, en particular, ha sido uno de los pioneros en una IA que puede realizar un razonamiento similar al humano para resolver consultas más complejas y mejorar con el tiempo, en especial cuando se trata de preguntas relacionadas con las matemáticas, la ciencia y la programación. En septiembre, la empresa presentó una versión preliminar de un modelo llamado o1 que hace esto dedicando más tiempo a calcular (pensar) una respuesta antes de responder a la pregunta de un usuario. Y en diciembre OpenAI anunció una versión mejorada de ese modelo, descrito como “el modelo más inteligente del mundo” por el director ejecutivo Sam Altman.
La empresa confía tanto en o1 que ha empezado a ofrecer una suscripción mensual de 200 dólares que incluye, entre otras funciones, acceso a una versión del modelo que puede utilizar incluso más potencia informática para responder a las preguntas.
Otras firmas, entre ellas Google y el fabricante de software Databricks, están trabajando en sus propias versiones de este enfoque, a menudo denominado cálculo en tiempo de prueba o en tiempo de inferencia (test-time compute o inference-time compute). Jonathan Frankle, científico jefe de IA de Databricks, dice que espera que la técnica se generalice mucho más en la industria. Además de proporcionar mejores respuestas, dice, podría mejorar la rentabilidad de la construcción de modelos de IA al reorientar algunos costos del desarrollo a los momentos en que los modelos ya están en uso y, por lo tanto, generan ingresos.
Luego está otro problema, la insaciable hambre de datos de la IA. Por eso las empresas recurren cada vez más a los datos sintéticos, que pueden adoptar muchas formas, incluido el texto generado por computadora que busca imitar el contenido creado por personas reales. Nathan Lambert, científico investigador del Allen Institute for Artificial Intelligence, refiere que cuando desarrollaba un modelo llamado Tulu 3, él y sus colegas le pidieron a un modelo de IA que produjera preguntas basadas en ciertas profesiones. Le pedían, por ejemplo, que fingiera ser un astronauta y diseñara un problema matemático específico para esa profesión, y el modelo producía una pregunta sobre qué tan lejos estará la luna del sol en un momento determinado del día.
Usaban estas preguntas para alimentar el modelo y luego usaban tanto las preguntas como las respuestas para afinar su propio sistema. Por alguna razón, esta técnica mejoró las capacidades matemáticas de Tulu 3. “No sabemos completamente por qué funciona”, dice Lambert, “y ese es el lado emocionante de los datos sintéticos”.
Los modelos de lenguaje de gran tamaño (el tipo de software de IA detrás de ChatGPT) están concebidos para replicar las palabras que los humanos usan para comunicarse, de modo que entrenar un sistema de IA con el mismo contenido que produce no conducirá a mejoras, según Frankle. Lambert puntualiza que es importante filtrar los datos generados por IA para evitar la repetición y verificar que sean precisos. Algunos investigadores también han expresado su preocupación por el hecho de que el uso indiscriminado de esos datos podría perjudicar el rendimiento de un modelo (una consecuencia a la que se refieren como “colapso del modelo”).
Fei-Fei Li, codirectora del Institute for Human-Centered AI de la Universidad de Stanford y cofundadora de la startup World Labs, considera que las empresas de IA dependerán cada vez más de datos sintéticos. Señala que quienes trabajan en la tecnología de conducción autónoma, por ejemplo, han dependido durante mucho tiempo de datos de conducción simulada para entrenar sus sistemas. “Para la IA, los datos son tan importantes como los algoritmos”, afirma Li. “Los datos sintéticos son de enorme importancia”.
Los problemas de escalar gigantescos modelos de propósito general son relevantes si el objetivo es avanzar hacia la AGI. Pero, históricamente, la inteligencia artificial ha sido diseñada para centrarse en una sola tarea, y Frankle dice que hay mucho margen para innovar en ese ámbito. En general, es optimista; compara lo que ahora está sucediendo en la industria de la IA con lo que ha sucedido en la evolución de la industria de los chips, donde los desarrolladores de chips alcanzaban lo que parecía un límite insuperable y luego ideaban diferentes innovaciones (procesadores multinúcleo, coprocesadores, procesamiento paralelo) para seguir mejorando la tecnología. “Si recordamos lo que pasó con los semiconductores, pasamos de una innovación a la siguiente y así seguimos intentando avanzar”, expone.
Con la colaboración de Shirin Ghaffary
Lee aquí la versión más reciente de Businessweek México: