Wafer Scale Engine: Un procesador Gigante

Cerebras System ha desarrollado lo que llama Wafer Scale Engine, un procesador con nada menos que 1,2 billones de transistores, es la mayor cantidad de transistores que jamás se ha conseguido en un sólo chip, Para acompañar semejante potencia, 18 gigabytes de memoria caché están incluidos en el propio chip,  mayor capacidad de memoria caché que la mayoría de los ordenadores actuales tienen de memoria RAM.

Para acomodar todo eso, el chip ocupa nada menos que 46.225 milímetros cuadrados, el Wafer Scale Engine ocupa una oblea producción completa, que en la fabricación de procesadores normalmente suele alojar decenas de chips. De hecho, el diseño interno se parece mucho al de varios chips pequeños interconectados; la gran innovación de Cerebras está las nuevas técnicas usadas para que esos chips se comunique entre si, Las GPU más potentes tienen hasta 5.000 núcleos. Pero el nuevo chip de Cerebras tiene 400.000 núcleos, unidos entre sí por conexiones de gran ancho de banda.

La firma asegura que esto le da una ventaja al manejar desafíos complejos de aprendizaje automático con menos retraso y menores requisitos de energía que sus antecesores. Cerebras afirma que el WSE reducirá de meses a minutos el tiempo que lleva procesar algunos datos complejos. Su fundador y director ejecutivo, Andrew Feldman, dijo que con su innovación la empresa había “superado desafíos técnicos de décadas”.

Cerebras dijo que ya comenzó a enviar este hardware a un pequeño número de clientes, aunque se desconoce el precio de cada unidad. Sin embargo, algunos expertos en tecnología han comenzado a sopesar las posibles desventajas de esta innovación. Ian Cutress, editor sénior del sitio de noticias AnandTech, dice que la mayor rapidez que traerá el nuevo chip tendrá su costo relacionado tanto en energía de consumo como clientes.

imagen de comparación en tamaño del chip WSE desarrollado por Cerebras Systems con un normal de Nvidia que podemos encontrar en dispositivos comunes


“Una de las ventajas de los chips de computadora más pequeños es que usan mucha menos energía y son más fáciles de mantener frescos”, explica. Cutress sostiene que cuando se emplean chips más grandes como este, las compañías que los comienzan a usar necesitan una infraestructura especializada para soportarlos. En su opinión, esto limitará el número de clientes para el nuevo producto, pues no todos podrán usarlo. “Es por eso que es adecuado para el desarrollo de inteligencia artificial, ya que es donde se están moviendo grandes cantidades de dinero en este momento”.

El aprendizaje profundo, mayor rapidez y potencia de procesamiento de cómputo

El deep learning o aprendizaje profundo Se ha convertido en la carga de trabajo computacional más importante de nuestra generación. En los últimos cinco años, la Inteligencia Artificial (IA) se ha elevado de la oscuridad a la mente superior.
conciencia debido a los avances en el aprendizaje profundo.

Tareas que históricamente fueron el único dominio de los humanos ahora se realizan rutinariamente por computadoras a niveles sobrehumanos. Un informe reciente de OpenAI mostró que, entre 2012 y 2018, el cómputo utilizado para entrenar a los modelos de procesamiento de IA más grandes aumentó en 300,000X. En otras palabras, la computación con inteligencia artificial está creciendo a un ritmo de 25,000X más rápido que la ley de Moore.

La demanda de cómputo de IA se duplica cada 3,5 meses. Esta voraz demanda de procesamiento significa que la IA no está limitada por aplicaciones o ideas, sino por La disponibilidad de capacidad e proceso de cómputo. Probar una sola hipótesis nueva, entrenar un nuevo modelo, toma semanas o meses y puede costar cientos de miles de dólares en tiempo de cálculo. Esto tiene demora en la innovación y desarrollo tecnológico avanzado.

Google, Facebook y Baidu, entre otros, han notado que el largo tiempo de entrenamiento IA es el impedimento fundamental para el progreso y perfeccionamiento de la IA en desarrollo; que muchas ideas importantes son ignoradas simplemente porque estos modelos tardan demasiado en entrenarse por la falta de capacidad de procesamiento de computo limitado por la tecnología en desarrollo.

Lino Cisterna

CEO&Founder RevistaProware.com Aficionado a las Ciencias, Física Teórica, (G)Astronomía, Sociología, Psicología, Teorías de la Tecnología (AAT).

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *