lunes, 3 de noviembre de 2008

Historia y arquitectura del precesador Cell de la PlayStation 3.

Cell


Cell es una arquitectura de microprocesador desarrollada conjuntamente por Sony Computer Entertainment, Toshiba, e IBM, en una alianza conocida con el nombre de “STI”. El diseño de arquitectura y su primera implementación se llevaron a cabo en el STI Design Center de Austin, Texas, durante un periodo total de cuatro años que comenzó en marzo de 2001, empleando un presupuesto de 400 millones de dólares según IBM.[1]


Cell es la abreviatura de Cell Broadband Engine Architecture (“arquitectura de motor Cell de banda ancha”), conocida también como CBEA por sus siglas al completo o Cell BE. Cell emplea una combinación de la arquitectura de núcleo PowerPC, de propósito general y medianas prestaciones, con elementos coprocesadores[2] en cascada, los cuales aceleran notablemente aplicaciones de procesado de vectores y multimedia, así como otras formas de computación dedicada.
La primera gran aplicación comercial del Cell fue la videoconsola PlayStation 3 de Sony. También podemos encontrar este procesador en servidores duales Cell, blade (tipo de servidor autocontenido) Cell en configuración dual, tarjetas aceleradoras PCI Express y adaptadores de televisión de alta definición.
Características únicas como el subsistema de memoria XDR de RAMBUS y el bus de interconexión de elementos (Element Interconnect Bus, EIB)parece que posicionan el Cell de manera ventajosa en el empleo de aplicaciones futuras en el campo de la supercomputación, donde se sacaría provecho de la habilidad del procesador para manejar núcleos de coma flotante. IBM ha anunciado planes para incorporar procesadores Cell como tarjetas de expansión en sus mainframes IBM System z9, para que de este modo puedan ser empleados como servidores en juegos de rol multijugador online masivos(MMORPGs).

En noviembre de 2006, David A. Bader, del Instituto Tecnológico de Georgia fue escogido por Sony, Toshiba e IBM de entre más de una docena de universidades para dirigir el primer Centro STI de expertos para el procesador Cell (STI Center of Competence for the Cell Processor). Esta alianza tiene por objetivo crear una comunidad de programadores y ampliar el apoyo de la industria al procesador Cell. Existe un vídeo tutorial sobre cómo programar el Cell a disposición del público.
Historia

En el año 2000, Sony Computer Entertainment, Toshiba Corporation, e IBM formaron una alianza (STI) para diseñar y manufacturar el procesador. El centro de diseño STI (STI Design Center) abrió sus puertas en marzo de 2001.El Cell estuvo en fase de diseño durante cuatro años, empleando versiones mejoradas de las herramientas de diseño usadas con el procesador POWER4. Alrededor de 400 ingenieros de las tres compañías trabajaron en Austin, con el estrecho apoyo de once de los centros de diseño de IBM.

Durante este periodo, IBM registró diversas patentes relacionadas con la arquitectura Cell, el proceso de fabricación y el entorno software. La primera versión de la patente del Broadband Engine mostraba un encapsulado de chip conteniendo cuatro “elementos de procesamiento” (Processing Elements), lo cual era la descripción en la patente de lo que ahora se conoce como “elementos power de proceso” (Power Processing Element). Cada elemento del proceso contenía 8 procesadores aritméticos, designados como SPE’s en el actual chip Broadband Engine. Dicho encapsulamiento se especula que habitualmente poseía una velocidad de reloj de 4 GHz, con 32 unidades de procesamiento aritmético que proporcionaban un total de 32 GFLOPS cada una. De este modo, el Broadband Engine mostraba un Teraflop de potencia de computación bruta.

En marzo de 2007, IBM hizo público que la versión en 65 nm del Cell BE se encontraba en producción en su planta de East Fishkill, Nueva York.

Nuevamente, durante el mes de febrero de 2008, IBM anunció su intención de comenzar la fabricación de procesadores Cell con tecnología de 45nm.[12]

Comercialización

El 17 de mayo de 2005, Sony Computer Entertainment confirmó algunas de las especificaciones del procesador Cell que sería incluido dentro de la futura videoconsola PlayStation 3.En esta configuración del Cell, se incluiría un elemento power de proceso (PPE) en el núcleo, junto con 8 unidades sinergísticas de proceso (SPE’s) en la oblea de silicio.En la PlayStation 3, una de las SPE’s se bloquea durante el proceso de testeo, práctica que ayuda a mejorar el rendimiento de fabricación, y otra se reserva para el sistema operativo, dejando con ello 6 SPE’s libres para ejecutar el código de los juegos.La velocidad de reloj objetivo durante su lanzamiento son 3,2 GHz El primer diseño se fabricó usando tecnología de fabricación SOI de 90 nm, de cuya producción inicial se encargó la factoría de IBM en East Fishkill.

La relación existente entre núcleos e hilos es una fuente usual de confusiones. El PPE es capaz de manejar dos hilos de ejecución y se muestra en software como tal, mientras que cada SPE activa se muestra como uno sólo. En la configuración de la PlayStation 3, tal y como la describe Sony, el procesador Cell proporciona nueve hilos de ejecución.

El 28 de junio de 2005, IBM y Mercury Computer Systems hicieron público un acuerdo para producir sistemas basados en Cell para aplicaciones embebidas tales como producción de imágenes médicas, inspección industrial, procesamiento aeroespacial, aplicaciones de defensa y de detección de seísmos; y también para telecomunicaciones. Mercury ha comercializado desde entonces blades, servidores convencionales en armario y aceleradoras PCI Express con procesadores Cell.

En el otoño de 2006, IBM lanzó el módulo blade QS20, empleando procesadores Cell BE dobles que proporcionaba un tremendo rendimiento en cierto tipo de aplicaciones, alcanzando un máximo de 410 GFLOPS por módulo. Se espera que estos módulos pasen a formar parte del superordenador IBM Roadrunner, que estará operativo en 2008. Mercury e IBM hacen uso del procesador Cell al completo, con sus 8 SPE’s activas.

El procesador de banda ancha Cell (Cell Broadband Engine) –o más comúnmente Cell– es un microprocesador diseñado para cubrir el hueco existente entre procesadores convencionales de sistemas de escritorio (tales como las familias Athlon, Pentium y PowerPC) y los procesadores especializados de alto rendimiento, como los procesadores gráficos (GPU’s) de NVIDIA y ATI. Su nombre completo indica las especificaciones de su uso, principalmente como componente en sistemas de distribución digital presentes y futuros. Como tal, puede ser empleado en pantallas y equipo de grabación de alta definición, así como en sistemas de entretenimiento informático para la era HDTV. De manera adicional, el procesador puede ser el apropiado para sistemas digitales de obtención de imagen (médicas, científicas, etc.), así como para simulaciones físicas (por ejemplo, modelado de ingeniería estructural o científico).

En un análisis simple, el procesador Cell se puede descomponer en cuatro partes:

* estructuras externas de I/O,

* el procesador principal (llamado Power Processing Element (PPE), consistente en un núcleo Power ISA (Instruction Set Architecture) v.2.03 de dos vías multihilo simultáneo,
* ocho coprocesadores funcionales denominados Synergistic Processing Elements, o SPEs;

* y un bus de datos circular especializado de gran ancho de banda que conecta la PPE, los elementos I/O y las SPE’s, llamado “bus de interconexión de elementos” o Element Interconnect Bus (EIB).

Para alcanzar el alto rendimiento necesario para tareas matemáticas intensivas, tales como decodificar o codificar secuencias MPEG, generar o transformar datos 3D, o llevar a cabo análisis Fourier de datos, el procesador Cell aúna las SPE y el PPE por medio del EIB para proporcionarles acceso tanto a la memoria principal como a dispositivos externos de almacenamiento.

El PPE, que es capaz de ejecutar un sistema operativo convencional, posee el control sobre las SPE’s y puede comenzar, interrumpir y programar procesos para que se ejecuten en las mismas. Tiene para este fin instrucciones adicionales relativas al control de las SPE. A pesar de presentar arquitecturas Turing completas, las SPE no son completamente autónomas y requieren que el PPE les envíe órdenes antes de poder ejecutar ninguna tarea de utilidad. Sin embargo, la mayor parte del “caballaje” proviene de las unidades sinergísticas de proceso.

El PPE y la arquitectura de bus incluyen varios modos de operación que proporcionan diferentes niveles de protección de memoria. Permitiendo que ciertas áreas de la memoria se protejan del acceso por parte de procesos específicos que se estén ejecutando en las SPE o en la PPE.

Tanto la arquitectura de la PPE como las de las SPE son de tipo RISC, con instrucciones de un tamaño de palabra fijo de 32 bits. El PPE contiene un juego de registros de propósito general de 64 bits (GPR), un registro de coma flotante de 64 bits (FPR) y un juego de registros de tipo Altivec de 128 bits. La SPE contiene solamente registros de 128 bits. Éstos se pueden emplear para diversos tipos de datos escalares que pueden ir desde los 8 hasta los 128 bits de tamaño o, para cálculos SIMD, en una variedad de formatos enteros o de coma flotante.

Las direcciones de memoria tanto para el PPE como para las SPE’s se expresan como valores de 64 bits, proporcionando un rango teórico de direcciones de 264 bytes (16.777.216 terabytes). En la práctica no todos esos bits se implementan por hardware. De todos modos, el espacio de direcciones es extremadamente grande. Las direcciones de almacenamiento locales de las SPE se expresan como palabras de 32 bits. En la documentación relativa al Cell, el término palabra siempre se refiere a 32 bits, doble palabra a 64 bits y cuádruple palabra a 128 bits.


Influencias y contrastes

En algunos aspectos el sistema Cell se asemeja a los primeros diseños de Seymour Cray, pero a la inversa. El conocido CDC6600 empleaba un único procesador, muy rápido, para manejar los cálculos matemáticos, mientras que diez sistemas de menor velocidad ejecutaban programas más pequeños para así mantener a la memoria principal alimentada con datos.

El problema ha sido invertido en el Cell: leer datos ya no constituye el problema gracias a los complejos códigos empleados en la industria. Hoy en día el problema es decodificar los datos en un formato cada vez menos y menos comprimido lo más rápido posible.

Las modernas tarjetas gráficas tienen elementos muy parecidos a los de las SPE’s, conocidos como unidades de sombreado, con una memoria de alta velocidad asociada. Unos programas, conocidos como “sombreadores” (shaders), se cargan en dichas unidades para procesar el flujo de datos de entrada que proporcionan estadios previos (posiblemente la CPU), de acuerdo con las operaciones requeridas.

Las principales diferencias se aprecian en que las SPE’s del Cell son de propósito mucho más general que las unidades de sombreado, y la habilidad de encadenar bajo el control de un programa varias SPE’s ofrece una flexibilidad mucho mayor, permitiendo que el Cell maneje gráficos, sonido o cualquier otra carga de trabajo.

Arquitectura

Esquema del procesador Cell.

Aunque el integrado Cell puede presentar diversas configuraciones, la más básica es un chip multinúcleo compuesto de un “elemento Power de proceso (Power Processor Element, PPE), también llamado a veces “elemento de proceso” (PE); y varias “unidades sinergísticas de procesamiento” (Synergistic Processing Elements, SPE).El PPE y las SPE’s están interconectadas entre sí mediante un bus interno de alta velocidad denominado “bus de interconexión de elementos” (Element Interconnect Bus, EIB).

Debido a la naturaleza de sus aplicaciones, el Cell está optimizado para la computación de datos de coma flotante de precisión simple. Las SPE’s son capaces de ejecutar cálculos de doble precisión, pero a cambio de una penalización notable en el rendimiento. Sin embargo, existen modos de solucionar esto en el software por medio del empleo de refinamientos de tipo iterativo, lo que significa que los valores sólo serán calculados en doble precisión cuando sea necesario. Jack Dongarra y su equipo han hecho una demostración en público en la que un Cell a 3,2 GHz con 8 SPE’s proporcionaba un rendimiento igual a 100 GFLOPS procesando una matriz estándar Linpack 4096x4096 con datos de doble precisión

Elemento Power de Proceso (Power Processor Element)

El PPE es un núcleo de dos vías multihilo basado en arquitectura Power que actúa como controlador para las 8 SPE’s, que se ocupan de la mayor parte de la carga de computación. El PPE trabaja con sistemas operativos convencionales debido a su similitud con otros procesadores Power PC de 64 bit, mientras que las SPE’s están diseñadas para la ejecución de código vectorizado en coma flotante.

El PPE contiene instrucciones de 32 KB y memoria caché de nivel 1 de 32 KB, así como una caché de 512 KB nivel 2. Adicionalmente, IBM ha incorporado una unidad Altivec, la cual se encuentra configurada para procesar datos de coma flotante en doble precisión mediante pipelines.

Cada PPU puede completar dos operaciones de doble precisión por ciclo de reloj, lo cual se traduce en un rendimiento de 6,4 GFLOPS a 3,2 GHZ

Elementos Sinergísticos de Proceso (Synergistic Processing Elements, SPE)

Esquema del PPE.
Esquema del SPE.

Cada SPE se compone de una “unidad sinergística de proceso” (Synergistic Processing Unit, SPU) y una “controladora de flujo de memoria” (Memory Flow Controller, MFC, DMA, MMU, o bus interface).Una SPE es un procesador RISC con una organización SIMD de 128 bits preparada para ejecutar instrucciones de precisión doble o sencillaEn la generación actual de Cell, cada SPE contiene 256 KB de SRAM embebida, para almacenamiento de instrucciones y datos, denominada “almacenamiento local” (no confundir con “memoria local”, que en la documentación de Sony se corresponde con la VRAM), visible para la PPE y que puede ser direccionada directamente por software. Cada SPE soporta hasta 4 GB de memoria de almacenamiento local.

El almacenamiento local no opera como la caché de una CPU convencional, ya que no es ni transparente al software ni contiene estructuras para la predicción de los datos a cargar. Las SPE’s contienen una línea de registros de 128 bits con 128 entradas que mide 14,5 mm² con la tecnología de fabricación de 90 nm. La SPE puede realizar operaciones con 16 enteros de 8 bits, 8 de 16 bits, 4 de 32 bits o bien 4 números de coma flotante en precisión simple en un solo ciclo de reloj, así como realizar una operación de memoria. Obsérvese que la SPU no puede direccionar memoria del sistema directamente: las direcciones virtuales de 64 bits formadas en la SPU han de ser transmitidas a la unidad de control de flujo de memoria (MFC) para ejecutar una operación DMS dentro del espacio de memoria del sistema.

En un escenario de uso típico, el sistema cargará pequeños programas en las SPE’s (parecidos a hilos), encadenándolas juntas de manera que cada una se haga cargo de un pequeño paso en una operación compleja. Por ejemplo, un decodificador de sobremesa podría cargar programas para leer un DVD, decodificar audio y vídeo y control de pantalla; y los datos serían transmitidos de SPE a SPE hasta que finalmente alcanzaran la televisión. Otra posibilidad consiste en dividir los datos de entrada y poner a operar a las SPE’s en la misma tarea en paralelo. A 3,2 GHZ, cada SPE proporciona un rendimiento teórico de 25,6 GFLOPS en datos de precisión simple.

Comparado con un ordenador personal moderno, el mayor rendimiento relativo de un procesador Cell en coma flotante parece dejar en ridículo las capacidades de unidades SIMD en procesadores de sobremesa como el Pentium 4 y el Athlon 64. Sin embargo, comparar tan sólo las capacidades en coma flotante de un sistema es una manera de efectuar mediciones unidimensional y fuertemente ligado a ciertas aplicaciones. A diferencia de un procesador Cell, las CPU’s de escritorio están mejor capacitadas para ejecutar software de propósito general ejecutado habitualmente en ordenadores personales. Además de ejecutar varias instrucciones por ciclo de reloj, los procesadores de Intel y AMD proveen predicción de bifurcaciones. El Cell se diseñó para compensar esto con la ayuda de su compilador, en el que se crean instrucciones para la preparación de bifurcaciones. Para datos en precisión doble, usualmente empleados en ordenadores personales, el rendimiento del Cell decrece considerablemente, pero aún alcanza los 14 GFLOPS.

Pruebas recientes realizadas por IBM muestran que las SPE’s pueden alcanzar el 98% de su máximo teórico empleando multiplicación de matrices paralelas.

Toshiba ha desarrollado un coprocesador operado por cuatro SPE’s y ningún PPE, llamado SpursEngine, que está diseñado para acelerar 3D y efectos de películas en electrónica de consumo.

Bus de Interconexión de Elementos (Element Interconnect Bus, EIB)

El EIB es un bus de comunicaciones interno del procesador Cell que interconecta los diversos elementos de sistema integrados en el chip: el procesador PPE, el controlador de memoria (MIC), los ocho coprocesadores SPE y las dos interfaces externas I/O del chip, formando un total de 12 participantes. El EIB incluye una unidad de asignación que funciona como un conjunto de semáforos. En algunos de los documentos de IBM los participantes del EIB son denominados “unidades”.

Actualmente, el EIB se implementa como un anillo circular compuesto de 4 canales unidireccionales de 16 Bytes que rotan en sentido contrario a las agujas del reloj por parejas. Cuando los patrones del tráfico los permiten, cada canal puede transmitir hasta un máximo de 3 transacciones de forma concurrente. Dado que el EIB funciona a la mitad de velocidad del reloj del sistema, el rendimiento efectivo son 16 bytes cada dos ciclos de reloj. Con tres transacciones activas en cada uno de los cuatro anillos, esto es, con una concurrencia máxima, el pico máximo instantáneo en ancho de banda del EIB es de 96 bytes por ciclo de reloj (12 transacciones simultáneas*16 bytes/2 ciclos de reloj). Aún cuando este valor es normalmente citado por IBM resulta irreal escalar este número por la velocidad del procesador. La unidad de asignación impone restricciones adicionales, las cuales se discuten más abajo en la sección asignación de ancho de banda.

David Krolak, Ingeniero Jefe de IBM y director de diseño del EIB, explica el modelo de concurrencia:

« Un anillo puede comenzar una operación cada tres ciclos. Cada transferencia dura 8 impulsos. Esta fue una de las simplificaciones que hicimos. De este modo, se optimiza para la transferencia de muchos datos. Si efectúas operaciones pequeñas, no funciona tan bien. Piensa en trenes de ocho vagones circulando por esta vía. Siempre que los vagones no colisionen entre sí, pueden coexistir en la vía. »

Cada uno de los participantes en el EIB posee un puerto de lectura de 16 bytes y otro de escritura de 16 bytes. El límite para cada participante individual es el de leer y escribir a una velocidad de 16 bytes por ciclo de reloj (por simplicidad muchas veces se indican 8 bytes por ciclo de reloj). Téngase en cuenta que cada SPU contiene una cola de administración DMA dedicada capaz de de planificar grandes secuencias de transacciones hacia diversos puntos de destino sin interferir con los cálculos que la SPU esté llevando a cabo. Estas colas DMA pueden ser manejadas tanto de manera local como remota, proporcionando una flexibilidad adicional en el modelo de control.

Los datos circulan por un canal EIB en el sentido de las agujas del reloj alrededor del anillo. Dado que existen doce participantes, el número total de pasos alrededor del canal de vuelta al origen son doce. Seis pasos es la distancia máxima entre cualquier par de participantes. A un canal EIB no se le permite comunicar datos que requieran más de seis pasos. Este tipo de datos habrá de tomar la ruta más corta en la otra dirección. El número de pasos implicados en enviar un paquete tiene poco impacto en la latencia de transferencia: la velocidad de reloj que controla todos los pasos es muy rápida con relación a cualquier otra consideración. Sin embargo, distancias de comunicación más largas sí que son perjudiciales para el rendimiento general del EIB, dado que reducen la concurrencia disponible.

A pesar del deseo original de IBM de implementar el EIB como un conmutador (crossbar) más potente, la configuración circular que adoptaron para economizar recursos en muy raras ocasiones representa un factor limitador en el rendimiento del chip Cell como un todo. En el peor de los casos, el programador ha de tener un cuidado extra a la hora de planificar patrones de comunicación allí donde el EIB es capaz de funcionar con altos niveles de participación.

David Krolak explica:

« Bueno, al principio, en los inicios del proceso de desarrollo, varias personas promocionaban la idea de un conmutador (crossbar switch). Por el modo en que el bus estaba diseñado se podría retirar sin más el EIB e implantar un conmutador siempre que estuvieras dispuesto a dedicar más espacio en la oblea del chip a pistas. Teníamos que encontrar un equilibrio entre conectividad y espacio y sencillamente no existía suficiente espacio para poner un conmutador. Así que se nos ocurrió esta estructura de anillo, que pensamos es bastante interesante. Encaja con las restricciones de espacio y aún así proporciona anchos de banda bastante notorios. »

Asignación del ancho de banda

A la hora de citar cifras de rendimiento, asumiremos un procesador Cell corriendo a 3,2 GHz, la más frecuentemente citada. A esta frecuencia de reloj cada canal transmite a un ritmo de 25,6 GB/s. Contemplando el EIB aisladamente de los elementos que interconecta, alcanzar doce transacciones simultáneas con este ratio de transferencia arrojaría un ancho de banda teórico de 207,2 GB/s. Basándose en esta perspectiva muchas de las publicaciones de IBM describen el ancho de banda disponible en el EIB como “mayor de 300 GB/s”. Este número refleja el pico instantáneo de ancho de banda del EIB escalado por la frecuencia del procesador.

Sin embargo, otras restricciones técnicas se ven involucradas en el mecanismo de arbitraje para los paquetes que son aceptados en el bus. Como explica The IBM Systems Performance Group:

« Cada unidad en el EIB puede enviar o recibir simultáneamente 16 bytes de datos por cada ciclo de bus. El máximo ancho de banda para datos para todo el EIB es limitado por la velocidad máxima a la que las direcciones son vigiladas por todas las unidades en el sistema, que es de uno por ciclo de bus. Dado que cada petición de dirección vigilada puede transferir potencialmente hasta 128 bytes, el pico de ancho de banda teórico en el EIB a 3,2 GHz es de 128 bytes x 1,6 GHz = 204,8 GB/s. »

Esta cita representa aparentemente la mayor revelación pública por parte de IBM de este mecanismo y su impacto. La unidad de arbitraje del EIB, el mecanismo de vigilancia y la generación de interrupciones en segmentos o los fallos de traducción de página no están bien descritos en los juegos de documentación pública de IBM.

En la práctica el ancho de banda efectivo del EIB puede también estar limitado por los participantes involucrados en el anillo. Mientras que cada uno de los nueve núcleos de proceso puede mantener una velocidad de lectura y escritura de 25,6 GB/s de manera simultánea, el adaptador de controladora de memoria (memory interface controller ,MIC) está sujeto a un par de canales de memoria XDR que permiten un tráfico máximo de 25,6 GB/s para escrituras y lecturas combinadas; y las dos controladoras de E/S, según aparece en la documentación, soportan una velocidad máxima combinada de entrada de 25,6 GB/s y una velocidad máxima combinada de salida de 35 GB/s.

Para aumentar aún más la confusión, algunas publicaciones antiguas hablan del ancho de banda del EIB asumiendo un reloj de sistema de 4 GHz Este marco de referencia resulta en una cifra de ancho de anda instantáneo de 384 GB/s y en un valor de ancho de banda limitado por arbitraje de 256 Gb/s. El valor teórico de 204,8 GB/s, el más citado, es el mejor a tener en cuenta, considerando cualesquiera otros aspectos. El IBM Systems Performance Group ha realizado demostraciones donde se alcanzaban flujos de datos de 197 GB/s alrededor de las SPU’s en un procesador Cell corriendo a 3,2 GHz, así que esta cifra es un indicador fiable también en la práctica.

Interconexión óptica

Sony está actualmente trabajando en el desarrollo de una tecnología de interconexión óptica para su empleo como adaptador interno o entre dispositivos externos para varios tipos de sistemas de electrónica de consumo y de entretenimiento basados en Cell.

Controladora de memoria y E/S

El procesador Cell contiene un macro XIO Rambus doble canal de nueva generación, que interconecta con memoria XDR Rambus. La controladora adaptadora de memoria (MIC) está separada del macro XIO y ha sido diseñada por IBM. El enlace XIO-XDR corre a 3,2 GB/s en cada pin. Dos canales de 32 bits pueden proporcionar un máximo teórico de 25,6 GB/s.

El adaptador de sistema empleado en Cell, también un diseño Rambus, es conocido como FlexIO. La interface FlexIO está organizada en 12 carriles, siendo cada carril un canal de 8 bits punto a punto. Cinco caminos de 8 bits de ancho punto a punto son carriles de entrada al Cell, mientras que los siete restantes son de salida. Esto proporciona un ancho de banda máximo teórico de 62,4GB/s (36,5GB/s salida, 26GB/s entrada).

La interface FlexIO puede poseer una frecuencia de reloj independiente (típicamente, a 3,2 GHz). Cuatro canales de entrada y cuatro de salida se encargan de implementar la coherencia de memoria.


Consolas de videojuegos

La consola de videojuegos PlayStation3 de Sony contiene la primera aplicación fabricada del procesador Cell, a una velocidad de reloj de 3,2 GHz, con siete de los ocho SPE’s operacionales, lo que permite a Sony incrementar la producción en la fabricación del procesador. Solo seis de los siete SPE’s son accesibles para los desarrolladores, mientras que el séptimo se reserva para el sistema operativo.

Cine en casa

Se ha dicho que Toshiba está considerando la posibilidad de producir televisores de alta definición (HDTV’s) haciendo uso del Cell. Ya han presentado un sistema que decodifica 48 flujos de MPEG-2 en definición estándar simultáneamente en una pantalla de 1920x1080. Esto permitiría al usuario elegir un canal de entre docenas de vídeos en miniatura presentados simultáneamente en pantalla.

Supercomputación

La nueva supercomputadora planeada por IBM, el IBM Roadrunner, será un híbrido entre procesadores de propósito general CISC y procesadores Cell. Se dice que esta combinación producirá el primer ordenador capaz de operar a la velocidad del petaflop. Usará una versión actualizada del procesador Cell, fabricada con tecnología de 65 nm y con SPU’s mejoradas que puedan manejar cálculos en doble precisión en los registros de 128 bits, alcanzando los 100 GFLOPS en doble precisión.

Computación en clúster

Los clústeres de consolas PlayStation 3 son una atractiva alternativa a los sistemas de gama alta basados en Blades Cell. El Innovative Computing Laboratory, cuyo grupo lidera Jack Dongarra, dentro del departamento de ciencia computacional de la Universidad de Tenesse, investigó dicha aplicación en profundidad. Terrasoft Solutions, implementando las investigaciones de Dongarra, vende clústeres de PlayStation 3 de 8 o 32 nodos, con Yellow Dog Linux preinstalado. Como publicó la revista Wired el 17 de octubre de 2007, una aplicación interesante del uso de PlayStation 3 en configuración de clúster fue implementada por el astrofísico Dr. Gaurav Khanna, que sustituyó el tiempo empleado en superordenadores por ocho PlayStation 3.El laboratorio de computación bioquímica y biofísica de la Universidad de Pompeu Fabra en Barcelona construyó un sistema BOINC basado en el software CellMD (el primero diseñado específicamente para el Cell) llamado PS3GRID para computación compartida.

Con la ayuda del poder de cálculo de alrededor de medio millón de consolas PlayStation 3, el proyecto de computación distribuida Folding@Home ha sido reconocido por el libro Guiness de los Records como la más poderosa red de computación distribuida del mundo. El primer record se obtuvo el 16 de septiembre de 2007, cuando el proyecto sobrepasaba un PETAFLOPS, lo que nunca había sido alcanzado antes por ninguna red de computación distribuida. Los esfuerzos colectivos permitieron que sólo las PS3 alcanzaran la marca del PETAFLOPS el 23 de septiembre de 2007. En comparación, la supercomputadora más potente del mundo, el IBM BlueGene/L, tiene una potencia de alrededor de 280,6 TFLOPS. Esto significa que la potencia de cálculo de Folding@Home es aproximadamente cuatro veces la de BlueGene/L (aunque la interconexión entre CPU’s en BlueGene/L es más de un millón de veces más rápida que la media de velocidad en la red Folding@Home).

2 comentarios:

Anónimo dijo...

Who knows where to download XRumer 5.0 Palladium?
Help, please. All recommend this program to effectively advertise on the Internet, this is the best program!

Anónimo dijo...

Together span, a construction train turned up to start edifice a forebears on the unfrequented lot.

The [url=http://poa7.000space.com/tda.html]328412[/url] 4rj7t3ca [url=http://daclac.000space.com/dan.html]737008[/url] 8ki9k5eh [url=http://kamachu.000space.com/ksd.html]183845[/url] babyish people's 5-year-old daughter definitely took an attracted via conduct of in all the

chance immediate on next door and forth much of each uncover of patch observing the workers.