#56 - DeepSeek: presión darwiniana, restricciones, lo imposible y la innovación
Por qué las condiciones más duras son muchas veces cuna de grandes avances. Las restricciones no negocian: o encuentras otro camino mejor o no lo conseguirás.
Gracias a los suscriptores que llevan en La Forja mucho tiempo y gracias a los nuevos que se van uniendo.
Artículos clásicos de La Forja por si no los has leído aún:
Esta semana te recomiendo estos artículos para que te pongas al día o para que los refresques:
La adversidad tiene el don de despertar talentos que en la comodidad hubieran permanecido dormidos.
Horacio
Hoy voy a contarte algunos principios fundamentales y patrones que nos enseña el caso de DeepSeek y su sacudida al mundo de la IA internacional. Da igual cuándo leas esto porque en La Forja me centro, principalmente, en escribir sobre principios, patrones y otros elementos que son útiles de manera indefinida o, al menos, durante mucho tiempo. He elegido esta historia porque es una buena oportunidad para presentar conceptos abstractos en forma de la concreción de varios patrones que cumple DeepSeek. De modo que hoy o dentro de 5 años, este artículo te servirá como ejemplo para los conceptos subyacentes, que es lo que realmente quiero contarte.
No te voy a hablar de los chips que se han utilizado ni de las optimizaciones a bajo nivel que se han hecho, ni de nada parecido. Tampoco voy a entrar en si DeepSeek no ha partido desde cero, sino que ha utilizado como entrada la salida de OpenAI (distillation), o incluso si pudiera haber errores, omisiones u ocultación del número y modelo real de los chips utilizados. Todo eso es irrelevante para lo que te quiero contar. Nuestro objetivo aquí no es analizar el detalle, sino poder entender los patrones y que puedas absorberlos para aplicarlos en tu entendimiento del mundo y la mejora de tu vida.
En el inicio existía el bloqueo: la imposición de restricciones
Estados Unidos quiere ganar la carrera de la IA y pensó que prohibir la exportación de los chips mas avanzados de los fabricantes estadounidenses (Chip Ban) a China generaría una barrera de acceso a la mejor tecnología que, a su vez, mantendría una ventaja insalvable a favor de las empresas de su país.
Es un razonamiento lógico en gran parte. Es intuitivo. Pero es erróneo.
Lo sabemos por la historia y el número de veces que se ha repetido. Lo contraintuitivo es lo correcto. Sigamos un poco más antes de llegar ahí.
La historia nos ha demostrado muchas veces que intentar detener el progreso, sea tecnológico o de cualquier tipo, no solo es inútil, sino que con frecuencia lo acelera.
La protagonista de esta historia es DeepSeek, una startup china de inteligencia artificial que acaba de conseguir desarrollar un modelo de IA generativa comparable con los mejores del mundo, pero con muchísimo menor coste de entrenamiento (muchos órdenes de magnitud inferior) y un 90% menos de coste en ejecución.
DeepSeek ha conseguido este resultado porque no le ha quedado otra alternativa que trabajar con lo que tenía, que no era lo mejor, porque lo mejor lo tiene EE.UU., debido al Chip Ban. El avance nació, justamente, de la prohibición y la restricción: al no poder acceder a los chips y componentes de gama más alta (como las últimas GPU de NVIDIA, que han sido durante años el estándar de la industria para entrenar grandes modelos de IA), DeepSeek se vio obligada a buscar otros caminos.
Cuando el camino directo está bloqueado, el ingenio humano busca alternativas, crea puentes y excava túneles.
La historia nos ha demostrado muchas veces que intentar detener el progreso, sea tecnológico o de cualquier tipo, no solo es inútil, sino que con frecuencia lo acelera.
Presión darwiniana y restricciones: catalizador para la innovación
El razonamiento subyacente a la estrategia de EE.UU. era que, sin infraestructura puntera, sin procesadores de alto rendimiento y sin la potencia bruta necesaria para entrenar grandes modelos de IA, China se quedaría rezagada. En un terreno en el que se requieren enormes cantidades de datos y potencia de cálculo, la carencia del hardware más avanzado supondría un golpe importante para los otros y una ventaja para los propios.
Cuando la abundancia te hace confiarte, puedes perder la oportunidad de descubrir formas nuevas de hacer las cosas.
En la naturaleza, típicamente, se encuentra a los seres más magníficos cuánto más hostil haya sido su entorno y más fuerte haya sido la competencia con las demás especies por los mismos recursos escasos. Lo contrario también es cierto: observamos evolución con baja ambición cuando las condiciones no son tan duras y la necesidad por encontrar mejores maneras de sobrevivir y replicarse no es tan alta. En el mundo tecnológico, empresarial, y en cualquier ámbito, ocurre lo mismo. La originalidad más fuerte, la innovación más radical, suele surgir de entornos con alta competencia.
Cuando estás contra la pared, todo tu ingenio se activa.
DeepSeek se enfrentó a un panorama que muchos habrían considerado imposible: entrenar y ejecutar modelos de gran envergadura con peor computación. DeepSeek reconoció que estaba ante un escenario donde tenía que resolver un problema ambicioso y tenía muchas restricciones para hacerlo.
Tal y como te conté en el artículo sobre entender tus objetivos como problemas con restricciones y luego resolverlos, la historia de DeepSeek es una concreción del principio que te propuse:
Establece tu objetivo como ineludible. Así no perderás tiempo en preguntarte si es factible o no. Buscarás cómo hacerlo factible.
Cuando dispones de todos los recursos es fácil caer en la tentación de la fuerza bruta. Si un modelo de IA necesita más potencia, compras más potencia. Este enfoque es práctico y tiene sentido por nuestro sesgo evolutivo a recorrer la ruta con menor esfuerzo, al fin y al cabo. Pero no siempre es bueno, aunque sea natural.
¿Por qué?
Porque:
La presión por mejorar queda relegada por la comodidad.
DeepSeek fijó el objetivo como no negociable. Liang Wenfeng, su fundador, interesado en la originalidad y no en la imitación, es la pista para ello. Liang reconoce que la gran diferencia entre EE.UU. y China es la diferencia entre “originalidad e imitación”. Y no le gusta el status quo, por lo visto.
Después de fijar el objetivo como no negociable, añadió las restricciones que tenía para conseguirlo. Finalmente, buscó cómo recorrer el camino desde el objetivo hasta su posición inicial. Para eso, tenían que encontrar un camino viable entre las restricciones que impedían el paso, explorando sólo la superficie de la solución que quedaba libre y que estaba aún sin explorar.
Cuando tu objetivo es entrenar un modelo de IA grande, pero cuentas con computación notablemente inferior a la vanguardia, la comodidad desaparece. Estás obligado a refinar cada línea de código, a explorar cada posibilidad de reducción de complejidad, a analizar posibles nuevas opciones y a inventar nuevos métodos, etc. Cada parte del proceso se somete a un escrutinio extremo, y de esa presión emergen ideas que no pueden surgir en abundancia, porque:
El juego de la abundancia es esencialmente diferente al juego de la escasez. Por eso no puede producir los mismos resultados, para lo bueno y para lo malo.
Esas ideas nacidas en las peores condiciones, muchas veces generan avances que no se hubieran conseguido de otra forma. DeepSeek encontró un nuevo camino con nuevas ideas y unió el objetivo final con el punto de partida.
El resultado de este proceso es un modelo competitivo entrenado por una fracción del precio estándar, una infraestructura de computación mucho menos exigente y un coste de operación un 90% menor. Ese tipo de salto cualitativo no habría sido tan prioritario si hubiesen tenido acceso a todo el hardware deseado.
La restricción que parecía condenarlos a ir por detrás se convirtió en la chispa de su ventaja competitiva.
Recorrer el camino era imposible, por eso lo hicieron
Pero antes de encontrar la solución, el camino correcto, DeepSeek tuvo que decidir que iba a conseguir hacer lo imposible. En lugar de lamentarse por no poder acceder a la infraestructura norteamericana, DeepSeek se hizo la pregunta correcta:
¿Cómo se puede hacer lo imposible?
¿Cómo podemos lograr un rendimiento equiparable con menos recursos?
No toda China se hizo esta pregunta. En China hay muchos Players tan interesados en la IA como todos los demás: Alibaba, Tencent, ByteDance, etc. No todos los que estuvieron forzados a la escasez se la hicieron. Mucho menos se la hicieron en las regiones con abundancia.
DeepSeek se hizo la pregunta adecuada.
Por eso obtuvo resultados diferentes.
Tal es la importancia de la pregunta anterior. Tenlo en cuenta para ti.
No puedes conseguir lo que ni si quiera buscas.
En mi artículo sobre cómo aprender a hacer lo imposible te expliqué el framework para poder hacerlo. Te recuerdo el índice de pasos aquí:
1.- Descompón todo el conocimiento que tengas sobre algo hasta sus partes básicas.
2.- Analiza lo que tienes y razona desde los fundamentos hacia arriba para construir cómo se llega a lo imposible:
¿Son estos los átomos que deberían estar?
¿Sobra alguno?
¿Falta alguno que podrías incluir para hacer lo imposible?
¿Es necesario inventar átomos que no existen?
¿Cómo podrían ser esos átomos por inventar?
Lanza un proyecto paralelo para inventarlos.
3.- Explora el espacio de las oportunidades posibles.
4.- Haz experimentos que recorran los caminos probables para ir del final al principio.
5.- Para cuando llegues a lo imposible o cuando sepas que no puedes llegar.
DeepSeek es, otra vez, un ejemplo concreto de esta abstracción. Tras preguntarse cómo iban a conseguir lo imposible tuvieran que cuestionárselo todo, descomponiendo todo el proceso dado por bueno hasta ahora y empezar a rediseñar desde abajo arriba. Es así como no dieron por buenas algunas de las prácticas asumidas y diseñaron sus propios planteamientos nuevos. Algunos de estos planteamientos ya eran conocidos, pero nunca se habían explotado al máximo debido a la comodidad de contar con computación muy potente.
Las restricciones muchas veces no son frenos, sino instrucciones que indican un nuevo camino a seguir.
La escasez de recursos motivó a los ingenieros de DeepSeek a optimizar cada paso del proceso, en lugar de solucionar los problemas con más potencia. Su meta no fue simplemente hacer lo mismo con menos, sino repensar completamente el proceso de creación de inteligencia artificial.
El resultado fue una sorpresa incluso para ellos mismos: un modelo de IA competitivo con los mejores modelos del momento a una fracción del coste (hay más avances en esta historia, pero para lo que nos interesa me voy a centrar en este).
Este logro no solo supone un hito tecnológico, sino que también es un recordatorio de algo que ya se sabía, aunque a veces se quiera ignorar:
El conocimiento no se puede mantener en estado de congelación. El cierre de puertas a los recursos es muchos veces el comienzo del deshielo.
La evolución no premia la comodidad, premia la rugosidad
La evolución biológica, tecnológica y empresarial nos ha enseñado que los que logran adaptarse mejor a su entorno son los que prevalecen. Cuando desaparece una fuente de alimento, las especies desarrollan nuevas habilidades. Cuando las condiciones se vuelven extremas, se extreman los instintos de supervivencia y las adaptaciones.
Si no se tiene un camino libre, es momento de inventar uno. En ese proceso, se descubren soluciones que, de otro modo, habrían permanecido ocultas en el espacio sin explorar.
Este mismo patrón se repite en la tecnología y en el mundo empresarial. DeepSeek no contaba con la mejor computación del mundo, así que tuvo que crear algo mejor a nivel de creatividad, eficiencia y optimización. Es un caso concreto de presión evolutiva. Cuando un entorno se vuelve hostil (en este caso, por la falta de hardware avanzado), la especie (o la empresa) se ve obligada a mutar y a encontrar un camino alternativo. En ocasiones, esa mutación le confiere una ventaja competitiva que antes no existía.
Cuando no conseguirlo no es una opción que entretengas en tu mente, la única opción es la innovación.
El error de intentar bloquear la innovación
A lo largo de la historia, se ha intentado y se intenta frenar la innovación de muchas formas, pero raramente con éxito, por las razones que he ido enumerando. Los intentos de bloqueo en la innovación casi siempre terminan impulsando aún más la creatividad e ingenio de quienes se ven desfavorecidos por las restricciones.
Esto es así, sí y sólo sí, los que quieren innovar son lo suficientemente ambiciosos y arriesgados. Como ya te conté, la propia historia de la creación de Hollywood es un ejemplo.
La innovación no entiende de muros ni de bloqueos, sino de determinación y creatividad.
En la actualidad, el episodio de DeepSeek ilustra el mismo principio. Los bloqueos tecnológicos no necesariamente detienen el progreso. Pueden incluso catalizarlo, reorientarlo y acelerarlo, dependiendo de la actitud con la que se enfrenten al problema los que quieren resolverlo.
Resultado que EE.UU., claramente, ha impulsado la innovación en IA, pero no por las razones que creía que iba a hacerlo con el Chip Ban. Queriendo poner puertas al campo, ha hecho que se descubra otro planeta con mucho campo disponible.
Impedir el acceso a un recurso no es lo mismo que impedir la innovación. A veces puede impulsarla a un nivel aún más radical.
Ahora los beneficiarios de ese descubrimiento serán todos los países y empresas, incluido EE.UU., ya que en este caso la información sobre la tecnología se ha publicado, es abierta y accesible por todo el mundo.
La ventaja injusta de las startups
DeepSeek nos recuerda a lo que hacen las mejores startups del mundo. Y no me refiero sólo a las gigantes startups americanas que lo hacen bien, que también, sino a todas las startups del mundo que lo hacen bien, en tanto en cuanto startups. Grandes o pequeñas, de una geografía o de otra.
¿Por qué DeepSeek recuerda al patrón de las mejores startups?
Porque su historia en este capítulo representa esto:
La esencia de la ventaja injusta de una startup sobre empresas establecidas es el riesgo de muerte inminente.
El riesgo de muerte inminente estimula como pocas cosas el instinto de supervivencia y pone a disposición de ese instinto todos los recursos disponibles en términos de creatividad, intensidad y violencia en la ejecución.
Nada se queda en el tintero porque no hay tintero.
Esa es una ventaja contra la que las empresas establecidas no pueden competir: no se puede simular el riesgo de muerte inminente. Simplemente no se puede.
Ese riesgo de muerte para una startup tiene una cosa mala: la posible muerte. Y otra buena: la necesidad de conseguir lo que otros no tienen por qué conseguir.
¿Puedes correr un sprint como si te persiguiera un león cuando no te persigue un león?
No puedes.
Pues esto es lo mismo.
Mira un plan de ejemplos:
¿Cómo logró salir Batman del pozo donde lo metió Bane?
Lo consiguió sólo cuando se quitó la cuerda que hacía de salvavidas en caso de fallo.
No hay cuerda. Entonces no puede haber fallo.
Nada pone en un estado de preparación para tener que dar lo mejor como eso.
Cuando la posibilidad de no conseguirlo es real y su resultado sería catastrófico, la posibilidad de conseguirlo también aumenta más que nunca.
Batman. El caballero oscuro renace.
Ese es Batman, pero por si me vas a decir que es un personaje de ficción, aquí tienes a Alex Honnold, especialista en escalada sin cuerda. Decidió escalar El Capitán, la montaña vertical gigantesca del parque nacional de Yosemite, en California.
El Capitán es realmente vertical y realmente grande. Verlo mientras te bañas en un río a su pie, impresiona:
Si Honnold escala El Capitán sin cuerda y se resbala, se mata. Ese es el riesgo. Y muchos que practican ese tipo de escalada, así han acabado, desafortunadamente. Si lo consigue, su nivel de escalada tiene que ser el más perfecto que pueda hacer, equivalente a un 10 en unas olimpiadas de gimnasia deportiva. Para conseguir ese 10, no hay nada que predisponga más que el máximo riesgo.
Tienes su historia en Free Solo:
Free Solo.
Esto es cierto en la vida real y cierto en el mundo de los negocios. Es un patrón universal. Afortunadamente, en el mundo de los negocios, quebrar una empresa, ser despedido o perder dinero, no es la muerte, por muy jodido que sea.
Ten eso presente para contextualizar el riesgo que crees que tiene cada cosa.
Algunas formas en las que se manifiesta la ventaja de las startups, como se ha manifestado con DeepSeek:
La presión de no poder fallar: una startup pequeña o una que opera bajo restricciones importantes no puede permitirse el lujo de despilfarrar ni tener ineficiencias graves sin un rumbo claro. Está obligada a acertar o a desaparecer. Esa presión impulsa la inventiva.
Agilidad y velocidad: es evidente. Muévete rápido y cambia lo que no funciona por algo que lo haga o desaparece.
Obsesión por la eficiencia: Sin el presupuesto holgado de una empresa estable, es imprescindible encontrar maneras de hacer más con menos. Esto conlleva un escrutinio continuo de todos los aspectos del negocio.
Atracción de talento motivado: Las personas a las que les apasiona la innovación radical suelen sentirse más atraídas por el reto y por hacer un impacto. Les motiva el reto de crear algo único en condiciones adversas.
Estas características se hacen más fuertes cuando la startup tiene la convicción y la ambición de que no conseguirlo no es una opción. Es esa energía la que permite a las startups (y a equipos pequeños con mentalidad de startup) lograr cosas que empresas más grandes, con todos sus recursos, muchas veces no pueden replicar.
DeepSeek, en este capítulo de su historia, no es sino un ejemplo de lo mejor de estas características en acción. Ha servido hoy como muestra de cómo varios patrones que te he ido contando se pueden observar funcionando en un ejemplo real y concreto.
Lo que más me gusta es aprender. Eso también es cierto para conocer qué te ha parecido este artículo y qué te parece La Forja.
Cuéntame eso o cualquier otra cosa que quieras decirme mandándome un correo a josefortes@substack.com.