Esta semana, en los Simposios sobre Tecnología y Circuitos VLSI 2020, Intel presentará investigaciones y perspectivas técnicas sobre la transformación de la computación impulsada en los datos, que se distribuye cada vez más en los núcleos del centro de datos, edgey los puntos terminales. El Director de Tecnología, Mike Mayberry, dará el discurso plenario de apertura: “El Futuro de la Computación: Cómo los Datos Están Transformando la Tecnología VLSI (integración a gran escala)”, que resalta la importancia de hacer la transición de la computación de un enfoque centrado en el hardware a un enfoque basado en los datos o la información.
Lo que se presentará: Varios trabajos de investigación de Intel Labs que exploran técnicas nuevas para alcanzar niveles más altos de desempeño de la inteligencia y el bajo consumo de energía en los sistemas edge, redes y nube del futuro para un número creciente de aplicaciones. Algunos de los temas cubiertos en los trabajos de investigación, son:
Mejorando la eficiencia y precisión de la reconstrucción de escenas 3D al utilizar aceleradores de hardware de fundición de rayos
Trabajo: Un acelerador de fundición de rayos en CMOS de 10 nm, para la reconstrucción eficiente de escenas 3D en aplicaciones de Edge Robotics y realidad aumentada.
Por qué es importante: Ciertas aplicaciones, como EedgeRrobotics y la realidad aumentada, necesitan de una reconstrucción precisa, rápida y de bajo consumo de energía en escenas 3D complejas a partir de los enormes volúmenes de datos generados por operaciones de fundición de rayos, para la localización y mapeo simultáneo (SLAM) denso en tiempo real. En este trabajo de investigación, Intel resalta un novedoso acelerador de hardware de fundición de rayos, que aprovecha nuevas técnicas para mantener la precisión en la reconstrucción de escenas, al tiempo que se logra un desempeño superior de bajo consumo de energía. Estos enfoques innovadores —incluyendo técnicas como la búsqueda de superposición de vooxelsy la aproximación de voxelsasistida por hardware — reducen la demanda de acceso a la memoria local, además de mejorar la eficiencia para las aplicaciones al edgede robótica y realidad aumentada futuras.
Reducción de gastos de energía en el análisis de transmisión de video basado en el Deep learning con la unidad de procesamiento de datos visuales activado por eventos (EPU)
Trabajo: Una unidad de procesamiento de datos visuales activados por eventos 0.05pJ/Pixel 70fps FHD 1Meps
Por qué es importante: La analítica de datos visuales basada en el deep learning, que se usa en aplicaciones como Seguridad y Protección, implica la detección rápida de objetos a partir de las transmisiones de múltiples videos y requiere de elevados ciclos de cómputo y ancho de banda de memoria. Tradicionalmente se reduce el tamaño de los cuadros de entrada de estas cámaras para minimizar esa carga, lo cual degrada la precisión de la imagen. En esta investigación, Intel demuestra una unidad de procesamiento de datos visuales activado por eventos (EPU) que – combinado con algoritmos novedosos – puede dar instrucciones a los aceleradores de deep learningde que solo procesen las entradas visuales usando “regiones de interés” basadas en el movimiento. Este enfoque novedoso alivia los elevados requisitos de cómputo y memoria de la analítica visual en el edge.
Expandir el ancho de banda de la memoria local para aplicaciones de inteligencia artificial, machine learning y Deep learning
Trabajo: 6T-SRAM, memoria de acceso aleatorio estática de 6 transistores de dos veces mayor de ancho de banda para cargas de trabajo limitadas.
Por qué es importante: Muchos chips de inteligencia artificial– sobre todo los que se usan para el procesamiento de lenguaje natural como los asistentes de voz – cada vez están más restringidos por el acceso a la memoria local. La duplicación de frecuencia o el incremento en el número de bancos para abordar estos retos se realizan a cambio de menor eficiencia energética y de área, sobre todo en dispositivos edgede área limitada. Con esta investigación, Intel demostró el uso de una matriz 6T-SRAM para proporcionar ancho de banda de lectura en demanda dos veces mayor en la operación del modo de ráfaga, con una eficiencia energética51% mayor que la duplicación de frecuencia y 30% mejor eficiencia de área que duplicando el número de bancos.
Acelerador de redes neuronales binarias totalmente digitales.
Trabajo:Acelerador de redes neuronales binarias totalmente digitales 617TOPS/W en tecnología FinFET CMOS de 10 nm.
Por qué es importante:En los dispositivos de borde de energía y recursos limitados en donde son aceptables las salidas de baja precisión para algunas aplicaciones, se han usado las redes neuronales binarias (BNN) analógicas como alternativa para las redes neuronales de mayor precisión, que son más exigentes computacionalmente y de uso intensivo de memoria. Sin embargo, las redes neuronales binarias analógicas son menos precisas en la predicción, ya que son menos tolerantes a las variaciones y el ruido de los procesos. A través de esta investigación, Intel demuestra el uso de una BNN completamente digital que ofrece eficiencia energética similar a las técnicas en memoria analógicas, además de proporcionar mayor robustez y escalabilidad a los nodos de proceso avanzado.
Otras investigaciones de Intel presentadas durante los Simposios VLSI 2020:
- El futuro de la computación: Cómo la transformación de datos está dando nueva forma a las VLSI
- IP de celda estándar digital de baja potencia de reloj para procesadores de gráficos / IA de alto rendimiento en CMOS de 10 nm
- Red de entrega de energía reconfigurable autónoma (RPDN) para SoC de muchos núcleos con dirección de corriente dinámica
- Transistores GaN y Si de 300 mm (111) habilitados por integración heterogénea monolítica 3D
- Técnicas de línea de bits multiplexadas de baja oscilación y columna para SRAM de celda de 8T-bit 1R1W de baja densidad, alta tolerancia, ruido, alta densidad, 1R1W en 10nm CMOS FinFET
- LDO analógico / digital híbrido de doble riel con dirección de corriente dinámica para alta PSRR sintonizable y alta eficiencia
- Cripto-procesador resistente a los ataques de canal lateral de 600 kops / J a 435 MHz para un cifrado seguro de clave pública RSA-4K en CMOS de 14 nm
- 0.26% de BER, 10 ^ 28 PUF de respuesta a desafío resistente a la modelación en CMOS de 14nm con selección de desafío adverso sensible a la estabilidad
- motor AES resistente a SCA con supresión de fugas en el dominio de tiempo / frecuencia 6000x utilizando un regulador digital no lineal de baja caída en cascada con contramedidas aritméticas en CMOS de 14 nm
- Integración de proceso compatible con CMOS de SOT-MRAM con electrodo inferior de dos capas de metal pesado y conmutación SOT de campo libre de 10ns con asistencia STT
- Diseño SRAM de 10 nm que utiliza la asistencia de escritura de auto-colapso modulada en la puerta que permite una reducción de VMIN de 175 mV con una sobrecarga de potencia insignificante