jueves, 13 de noviembre de 2008

El mundo cuántico posee ciertas carencias de realidad

Ramón Lapiedra expone en un nuevo libro la inviabilidad cuántica del universo determinista

Hoy en día es imposible entender no sólo la ontología del mundo físico, sino también la del mundo viviente y humano, o sea, entender la ontología del universo, de la vida y del hombre (la conciencia), sin hacerlo de acuerdo con la imagen de la realidad que nos ha propuesto la mecánica cuántica. Para Ramón Lapiedra esta imagen cuántica nos lleva a entender que, detrás de nuestras experiencias o medidas experimentales, se esconde una enigmática realidad cuántica “con carencias de realidad” que excluye el determinismo absoluto. Serían, tal vez, “carencias” de “realidad mecano-clásica”, pero, al mismo tiempo, “nuevas formas” de “realidad mecano-cuántica”. Por Javier Monserrat.
El profesor Ramón Lapiedra es, desde 1982, Catedrático de Física Teórica de la Universidad de Valencia, de la que también ha sido Rector. Con la publicación de un reciente libro titulado Las carencias de la realidad, aborda algunos de los problemas de conocimiento más importantes que han sido planteados por la ciencia; se trata, como el título ya indica, de la conciencia, del universo y de la materia (la mecánica cuántica).

En último término aparecen de nuevo aquí los grandes problemas propuestos al conocimiento humano: cómo entender el mundo físico (materia-universo), cómo entender la vida o la conciencia y cómo entender al hombre. Desde un enfoque científico se busca un conocimiento integrado y armónico. La materia-universo explica la producción de la vida, pero la vida-conciencia explica la emergencia del hombre. Se trata, pues, de conocer la unidad psicobiofísica que, en último término, constituye nuestra experiencia humana. El libro no aborda preguntas filosóficas, pero trata del conocimiento psicobiofísico en aquella frontera más profunda en que las respuestas científicas afectan siempre directamente a las respuestas filosóficas.

Existe una forma técnica de tratar el conocimiento científico, especialmente en física, que se caracteriza por la descripción matemática de los fenómenos; es lo que vemos en tratados y artículos ordinarios de investigación, que sólo son asequibles a quienes profesionalmente se mueven en ese campo especial. Pero detrás de ese mundo “esotérico”, aislado por la dificultad matemática, la ciencia habla del mundo real y produce conocimientos que conducen a una imagen de la realidad física, biológica y humana, que puede expresarse conceptualmente.

La ciencia no es sólo una relación de operaciones de medida y de números, como pretendió el hoy, creemos ya superado, operacionalismo de Brigdman, sino una construcción de conocimiento sobre el mundo. Y este conocimiento, en alguna manera cualitativo, supone representaciones y conceptos que nos dan desde la ciencia la imagen del mundo real. Lapiedra pretende, pues, pensar sobre la quintaesencia de esa imagen del mundo de forma representativa y conceptual, de tal manera que sea una ayuda tanto para científicos como para filósofos (o cuantos accedan a la lectura desde una preparación suficiente).

La calidad del esfuerzo conceptual del profesor Lapiedra debe ponderarse desde tres perspectivas.

1) Tiene una línea argumental sencilla expuesta con una extraordinaria claridad y precisión conceptual que ayudarán a muchos lectores; no es fácil encontrar libros similares con este nivel de acierto al hablar de cosas que son por su propia naturaleza muy complejas. 2) Cuando el curso de la explicación desemboca en aquellas cuestiones más discutidas que hacen más enigmática y desconcertante la mecánica cuántica, aun manteniéndose en una línea de interpretación ortodoxa, sus propuestas explicativas abundan en sentido común, sensatez y hacen el mundo cuántico intuitivamente congruente con nuestra experiencia. 3) Además, y esto es en nuestra opinión muy importante, se trata de un esfuerzo conceptual que con toda honestidad y sencillez lleva la explicación y sus consecuencias científicas hasta donde su propia lógica exige, tocando con ello en toda su profundidad las grandes cuestiones de la filosofía.

La línea argumental: explicación desde el mundo cuántico

Lapiedra apunta a ciertos objetivos precisos de conocimiento. A) Básicamente plantea el enigma del origen del mundo; cuestión ciertamente fundamental porque todo lo que vemos, incluida nuestra vida psíquica debe depender de la naturaleza germinal del universo en el que todo ha sido producido. En el marco de este objetivo formula también Lapiedra otros dos problemas: B) primero la cuestión del determinismo (si todo el acontecer natural y humano está producido con necesidad por ciertas causas precedentes) y, C) segundo, la cuestión del realismo (si existe una realidad que, al margen de nuestra experiencia, responde a unos contenidos precisos e independientes).

La respuesta a estas cuestiones (naturaleza y origen del universo, el papel del determinismo y el realismo que se esconde detrás del mundo fenoménico de experiencia) se ha construido durante siglos desde un modo de organizar el conocimiento del mundo físico que llamamos la mecánica clásica. Sin embargo, Lapiedra expone la evidencia científica actual de que todas estas cuestiones deben responderse a partir de la imagen del mundo construida por la mecánica cuántica.

Esta, en efecto, representa hoy nuestro conocimiento científico del sustrato más fundamental y primigenio que constituye el universo. Esta materia es la que se produjo cuando nació el universo y la que sigue dándose en el fondo profundo de los objetos macroscópicos. Por tanto, el macrocosmos, el universo, y todos los objetos macroscópico-clásicos que contiene, accesibles a la experiencia, incluida la conciencia y su libertad, han sido producidos desde el microcosmos, o mundo germinal de la materia.

Así, tanto el universo como los objetos macroscópico-clásicos en su interior son una consecuencia de la organización compleja, dada en el tiempo, de la materia, según su naturaleza y propiedades ontológicas. Por tanto, si la mecánica cuántica representa nuestro conocimiento actual de la materia microfísica es en ella donde la ciencia deberá hallar el fundamento para responder (en cuanto podamos) al enigma del universo, al alcance y modo de entender y valorar el determinismo natural y, por último, al grado de “realismo” que podamos atribuir al fondo que sustenta nuestro mundo perceptivo de experiencia.

El profesor Lapiedra, en consecuencia, debe construir la línea argumental que le lleve a responder las grandes cuestiones planteadas desde la mecánica cuántica. La ciencia moderna no nos permite otro punto de partida. Y para ello comienza exponiendo conceptualmente los principios básicos de la imagen de la realidad física en la mecánica cuántica; todo depende, según lo dicho, de esta imagen (capítulos 1 y 2). En el paso siguiente aborda Lapiedra, en consecuencia, qué respuesta puede darse a la cuestión del determinismo y del realismo (capítulo 3). El problema del determinismo debe estudiarse de forma especial cuando nos referimos a la vida biológica en general y a la vida humana. Estamos ya ante el hecho de la conciencia (nuestra experiencia de libertad) y su posible explicación, que Lapiedra entiende también como una derivación macroscópica de esas mismas propiedades de la mecánica cuántica (capítulo 4). Por último, cuando entramos en el conocimiento del origen del universo nos hallamos también en una situación en que sólo los principios de la mecánica cuántica permiten hacer hipótesis y supuestos congruentes (capítulo 5).

La imagen cuántica del mundo

Lapiedra ofrece una visión congruente del mundo cuántico que presenta sus propias opciones interpretativas que como él mismo dice, aun siendo ortodoxas, quizá no sean admitidas por todos. Como antes decíamos, su explicación no sólo es defendible, sino que, a nuestro entender, está respaldada por su congruencia con el mundo de experiencia inmediata. Con toda brevedad sinteticemos ahora algunas de las ideas que Lapiedra expone, sin duda, con mayor amplitud y precisión. A él nos referimos para suplir nuestras imprecisiones expositivas. Los errores son, evidentemente, nuestros.

1) La función de onda. La realidad cuántica responde a un modo de ser que se expresa en el principio de la dualidad corpúsculo-onda. Un sistema cuántico (una partícula, un estado) queda descrito por la ecuación o función de onda (propuesta por Schroedinger, 1925) cuyo valor Psi depende de la posición en el espacio y en el tiempo, y de otras variables o magnitudes. La función de onda, por tanto, es una expresión matemática que describe en general el sistema cuántico (como la ecuación de la recta describe en general todos los puntos que pertenecen a una recta). Si nos fijamos en un valor posible “m” de una magnitud M de la función de onda, entonces la forma que toma la función (Psi) para ese valor “m” se conoce como función propia para el valor “m” (o Psim ).

2) Superposición de estados. Esto nos hace ver que el estado microfísico de un sistema cuántico descrito por su función de onda puede coincidir con una multitud de estados propios de esa función (cuando se concretiza en un valor u otro de sus magnitudes). El principio de dualidad corpúsculo-onda nos dice que el sistema cuántico puede comportarse como una onda o como una partícula. En general se dice que los sistemas cuánticos presentan “superposición de estados” y por consiguiente la función de onda está compuesta por una variedad de estados posibles, ninguno de los cuales se ha realizado, y que es igual a la suma (superposición) de los estados propios. Así, la partícula (vg. un electrón) está en todas sus posibles ubicaciones dadas por la función de onda y no está en ninguna; tiene sus posibles localizaciones superpuestas. La mecánica cuántica entiende, como sabemos, que el valor de |Psi|2 representa la probabilidad de encontrar la partícula en unos determinados valores espacio-temporales dentro de la función de onda.

3) Colapso de la función de onda y medida. La expresión mecano-cuántica “colapso de la función de onda” se usa para decir que un estado cuántico de superposición (de indeterminación en cuanto a un cúmulo de posilidades) queda concretado a una de ellas: el tránsito desde la superposición a la concreción de un valor preciso es el “colapso”. Así, la onda, que está superpuesta en relación a un abanico de localizaciones posibles como partícula, se colapsa en una de ellas cuando lo hace en un punto. Este colapso es el que se produce cuando sobre el sistema cuántico se realiza una medida por una estrategia invasiva dirigida desde el mundo macroscópico (el observador). Muchos teóricos entienden que sólo en el proceso de la medida se produce el colapso. Pero el profesor Lapiedra defiende una interpretación natural más amplia del colapso. Al margen de observadores y medidas, el fondo cuántico del mundo natural está por sí mismo en continuas trasiciones reales entre los sistemas cuánticos y continuamente se producen colapsos que pueden trasmitir sus efectos hacia el mundo macroscópico.

4) Relaciones de incertidumbre. Las magnitudes y variables del mundo cuántico están afectadas por las llamadas relaciones de incertidumbre que se derivan de la misma naturaleza de la medida y de los estados de superposición. Como se ve según el “principio de incertidumbre” de Heisenberg es imposible, por ejemplo, medir con precisión, al mismo tiempo, dos variables de un sistema cuántico: la posición y la velocidad (o el momento) de una partícula. La medida de una variable produce un efecto de incertidumbre en el valor de la otra. Diríamos, si nos movemos en una interpretación “natural” del colapso, que probablemente no sólo las medidas experimentales sino las relaciones de los sistemas cuánticos con los sistemas macroscópicos del entorno (e incluso probablemente del efecto de unos sistemas cuánticos sobre otros) producen constantemente en la naturaleza “efectos de incertidumbre” en estos sistemas.

5) Indeterminación y probabilidad. Todo esto nos hace entender que el mundo cuántico está indeterminado: no es posible predecir (en función de un conjunto de causas precedentes) qué valores de la medida producidos en el colapso van a hacerse realidad. Las interacciones de los sistemas cuánticos entre sí y de estos con los macroscópicos va creando continuamente multitud de incertidumbres en la evolución del universo. En este sentido la evolución del mundo no refleja una partitura preestablecida sino que es “creativa”, al elegir continuamente unos valores precisos de entre un conjunto de posibilidades superpuestas que nunca llegarán a ser realidad, tal como expone el profesor Lapiedra. Es, por tanto, entendible que la mecánica cuántica describa siempre la evolución de los sistemas cuánticos por medio de conceptos y de fórmulas probabilísticas.

6) Indiscernibilidad de partículas idénticas. La enigmática “ontología” cuántica que sintetizamos aquí no permite, pues, considerar que dos partículas idénticas sean indiscernibles en el espacio. Tampoco permite decir que una partícula se mantenga siendo “la misma” en el tiempo (por ejemplo, un electrón en su orbital atómico).

7) Teoría de los muchos mundos. La conocida teoría de los “muchos mundos” de Everett, como sabemos, atribuiría realidad o existencia paralela a cada uno de los itinerarios cuánticos posibles (abiertos por las infinitas posibilidades en superposición y a su compleja combinatoria). Lapiedra rechaza esta teoría y no la considera exigida por la mecánica cuántica ortodoxa, mostrando en ello su buen sentido. La evolución del mundo real habría ido dejando en el camino como consecuencia del colapso una infinitud de posibilidades que nunca llegaron ni llegarán a ser realidad.

8) Colapso en la mente del observador. Lapiedra rechaza también la teoría que se conoce como “idealista” (Wigner) de la mecánica cuántica. Según Lapiedra. si no existieran “observadores”, el mundo real seguiría siendo como es: el universo macroscópico seguiría donde está con el bullir interactivo de los colapsos y superposiciones en su ontología cuántica profunda. La teoría de los muchos mundos y la versión idealista son discutidas por Lapiedra en el marco de un amplio análisis del experimento imaginario del “gato de Schroedinger”, que consideramos en extremo acertada.

El gato de Schrödinger. Chubas.

lunes, 3 de noviembre de 2008

Historia y arquitectura del precesador Cell de la PlayStation 3.

Cell


Cell es una arquitectura de microprocesador desarrollada conjuntamente por Sony Computer Entertainment, Toshiba, e IBM, en una alianza conocida con el nombre de “STI”. El diseño de arquitectura y su primera implementación se llevaron a cabo en el STI Design Center de Austin, Texas, durante un periodo total de cuatro años que comenzó en marzo de 2001, empleando un presupuesto de 400 millones de dólares según IBM.[1]


Cell es la abreviatura de Cell Broadband Engine Architecture (“arquitectura de motor Cell de banda ancha”), conocida también como CBEA por sus siglas al completo o Cell BE. Cell emplea una combinación de la arquitectura de núcleo PowerPC, de propósito general y medianas prestaciones, con elementos coprocesadores[2] en cascada, los cuales aceleran notablemente aplicaciones de procesado de vectores y multimedia, así como otras formas de computación dedicada.
La primera gran aplicación comercial del Cell fue la videoconsola PlayStation 3 de Sony. También podemos encontrar este procesador en servidores duales Cell, blade (tipo de servidor autocontenido) Cell en configuración dual, tarjetas aceleradoras PCI Express y adaptadores de televisión de alta definición.
Características únicas como el subsistema de memoria XDR de RAMBUS y el bus de interconexión de elementos (Element Interconnect Bus, EIB)parece que posicionan el Cell de manera ventajosa en el empleo de aplicaciones futuras en el campo de la supercomputación, donde se sacaría provecho de la habilidad del procesador para manejar núcleos de coma flotante. IBM ha anunciado planes para incorporar procesadores Cell como tarjetas de expansión en sus mainframes IBM System z9, para que de este modo puedan ser empleados como servidores en juegos de rol multijugador online masivos(MMORPGs).

En noviembre de 2006, David A. Bader, del Instituto Tecnológico de Georgia fue escogido por Sony, Toshiba e IBM de entre más de una docena de universidades para dirigir el primer Centro STI de expertos para el procesador Cell (STI Center of Competence for the Cell Processor). Esta alianza tiene por objetivo crear una comunidad de programadores y ampliar el apoyo de la industria al procesador Cell. Existe un vídeo tutorial sobre cómo programar el Cell a disposición del público.
Historia

En el año 2000, Sony Computer Entertainment, Toshiba Corporation, e IBM formaron una alianza (STI) para diseñar y manufacturar el procesador. El centro de diseño STI (STI Design Center) abrió sus puertas en marzo de 2001.El Cell estuvo en fase de diseño durante cuatro años, empleando versiones mejoradas de las herramientas de diseño usadas con el procesador POWER4. Alrededor de 400 ingenieros de las tres compañías trabajaron en Austin, con el estrecho apoyo de once de los centros de diseño de IBM.

Durante este periodo, IBM registró diversas patentes relacionadas con la arquitectura Cell, el proceso de fabricación y el entorno software. La primera versión de la patente del Broadband Engine mostraba un encapsulado de chip conteniendo cuatro “elementos de procesamiento” (Processing Elements), lo cual era la descripción en la patente de lo que ahora se conoce como “elementos power de proceso” (Power Processing Element). Cada elemento del proceso contenía 8 procesadores aritméticos, designados como SPE’s en el actual chip Broadband Engine. Dicho encapsulamiento se especula que habitualmente poseía una velocidad de reloj de 4 GHz, con 32 unidades de procesamiento aritmético que proporcionaban un total de 32 GFLOPS cada una. De este modo, el Broadband Engine mostraba un Teraflop de potencia de computación bruta.

En marzo de 2007, IBM hizo público que la versión en 65 nm del Cell BE se encontraba en producción en su planta de East Fishkill, Nueva York.

Nuevamente, durante el mes de febrero de 2008, IBM anunció su intención de comenzar la fabricación de procesadores Cell con tecnología de 45nm.[12]

Comercialización

El 17 de mayo de 2005, Sony Computer Entertainment confirmó algunas de las especificaciones del procesador Cell que sería incluido dentro de la futura videoconsola PlayStation 3.En esta configuración del Cell, se incluiría un elemento power de proceso (PPE) en el núcleo, junto con 8 unidades sinergísticas de proceso (SPE’s) en la oblea de silicio.En la PlayStation 3, una de las SPE’s se bloquea durante el proceso de testeo, práctica que ayuda a mejorar el rendimiento de fabricación, y otra se reserva para el sistema operativo, dejando con ello 6 SPE’s libres para ejecutar el código de los juegos.La velocidad de reloj objetivo durante su lanzamiento son 3,2 GHz El primer diseño se fabricó usando tecnología de fabricación SOI de 90 nm, de cuya producción inicial se encargó la factoría de IBM en East Fishkill.

La relación existente entre núcleos e hilos es una fuente usual de confusiones. El PPE es capaz de manejar dos hilos de ejecución y se muestra en software como tal, mientras que cada SPE activa se muestra como uno sólo. En la configuración de la PlayStation 3, tal y como la describe Sony, el procesador Cell proporciona nueve hilos de ejecución.

El 28 de junio de 2005, IBM y Mercury Computer Systems hicieron público un acuerdo para producir sistemas basados en Cell para aplicaciones embebidas tales como producción de imágenes médicas, inspección industrial, procesamiento aeroespacial, aplicaciones de defensa y de detección de seísmos; y también para telecomunicaciones. Mercury ha comercializado desde entonces blades, servidores convencionales en armario y aceleradoras PCI Express con procesadores Cell.

En el otoño de 2006, IBM lanzó el módulo blade QS20, empleando procesadores Cell BE dobles que proporcionaba un tremendo rendimiento en cierto tipo de aplicaciones, alcanzando un máximo de 410 GFLOPS por módulo. Se espera que estos módulos pasen a formar parte del superordenador IBM Roadrunner, que estará operativo en 2008. Mercury e IBM hacen uso del procesador Cell al completo, con sus 8 SPE’s activas.

El procesador de banda ancha Cell (Cell Broadband Engine) –o más comúnmente Cell– es un microprocesador diseñado para cubrir el hueco existente entre procesadores convencionales de sistemas de escritorio (tales como las familias Athlon, Pentium y PowerPC) y los procesadores especializados de alto rendimiento, como los procesadores gráficos (GPU’s) de NVIDIA y ATI. Su nombre completo indica las especificaciones de su uso, principalmente como componente en sistemas de distribución digital presentes y futuros. Como tal, puede ser empleado en pantallas y equipo de grabación de alta definición, así como en sistemas de entretenimiento informático para la era HDTV. De manera adicional, el procesador puede ser el apropiado para sistemas digitales de obtención de imagen (médicas, científicas, etc.), así como para simulaciones físicas (por ejemplo, modelado de ingeniería estructural o científico).

En un análisis simple, el procesador Cell se puede descomponer en cuatro partes:

* estructuras externas de I/O,

* el procesador principal (llamado Power Processing Element (PPE), consistente en un núcleo Power ISA (Instruction Set Architecture) v.2.03 de dos vías multihilo simultáneo,
* ocho coprocesadores funcionales denominados Synergistic Processing Elements, o SPEs;

* y un bus de datos circular especializado de gran ancho de banda que conecta la PPE, los elementos I/O y las SPE’s, llamado “bus de interconexión de elementos” o Element Interconnect Bus (EIB).

Para alcanzar el alto rendimiento necesario para tareas matemáticas intensivas, tales como decodificar o codificar secuencias MPEG, generar o transformar datos 3D, o llevar a cabo análisis Fourier de datos, el procesador Cell aúna las SPE y el PPE por medio del EIB para proporcionarles acceso tanto a la memoria principal como a dispositivos externos de almacenamiento.

El PPE, que es capaz de ejecutar un sistema operativo convencional, posee el control sobre las SPE’s y puede comenzar, interrumpir y programar procesos para que se ejecuten en las mismas. Tiene para este fin instrucciones adicionales relativas al control de las SPE. A pesar de presentar arquitecturas Turing completas, las SPE no son completamente autónomas y requieren que el PPE les envíe órdenes antes de poder ejecutar ninguna tarea de utilidad. Sin embargo, la mayor parte del “caballaje” proviene de las unidades sinergísticas de proceso.

El PPE y la arquitectura de bus incluyen varios modos de operación que proporcionan diferentes niveles de protección de memoria. Permitiendo que ciertas áreas de la memoria se protejan del acceso por parte de procesos específicos que se estén ejecutando en las SPE o en la PPE.

Tanto la arquitectura de la PPE como las de las SPE son de tipo RISC, con instrucciones de un tamaño de palabra fijo de 32 bits. El PPE contiene un juego de registros de propósito general de 64 bits (GPR), un registro de coma flotante de 64 bits (FPR) y un juego de registros de tipo Altivec de 128 bits. La SPE contiene solamente registros de 128 bits. Éstos se pueden emplear para diversos tipos de datos escalares que pueden ir desde los 8 hasta los 128 bits de tamaño o, para cálculos SIMD, en una variedad de formatos enteros o de coma flotante.

Las direcciones de memoria tanto para el PPE como para las SPE’s se expresan como valores de 64 bits, proporcionando un rango teórico de direcciones de 264 bytes (16.777.216 terabytes). En la práctica no todos esos bits se implementan por hardware. De todos modos, el espacio de direcciones es extremadamente grande. Las direcciones de almacenamiento locales de las SPE se expresan como palabras de 32 bits. En la documentación relativa al Cell, el término palabra siempre se refiere a 32 bits, doble palabra a 64 bits y cuádruple palabra a 128 bits.


Influencias y contrastes

En algunos aspectos el sistema Cell se asemeja a los primeros diseños de Seymour Cray, pero a la inversa. El conocido CDC6600 empleaba un único procesador, muy rápido, para manejar los cálculos matemáticos, mientras que diez sistemas de menor velocidad ejecutaban programas más pequeños para así mantener a la memoria principal alimentada con datos.

El problema ha sido invertido en el Cell: leer datos ya no constituye el problema gracias a los complejos códigos empleados en la industria. Hoy en día el problema es decodificar los datos en un formato cada vez menos y menos comprimido lo más rápido posible.

Las modernas tarjetas gráficas tienen elementos muy parecidos a los de las SPE’s, conocidos como unidades de sombreado, con una memoria de alta velocidad asociada. Unos programas, conocidos como “sombreadores” (shaders), se cargan en dichas unidades para procesar el flujo de datos de entrada que proporcionan estadios previos (posiblemente la CPU), de acuerdo con las operaciones requeridas.

Las principales diferencias se aprecian en que las SPE’s del Cell son de propósito mucho más general que las unidades de sombreado, y la habilidad de encadenar bajo el control de un programa varias SPE’s ofrece una flexibilidad mucho mayor, permitiendo que el Cell maneje gráficos, sonido o cualquier otra carga de trabajo.

Arquitectura

Esquema del procesador Cell.

Aunque el integrado Cell puede presentar diversas configuraciones, la más básica es un chip multinúcleo compuesto de un “elemento Power de proceso (Power Processor Element, PPE), también llamado a veces “elemento de proceso” (PE); y varias “unidades sinergísticas de procesamiento” (Synergistic Processing Elements, SPE).El PPE y las SPE’s están interconectadas entre sí mediante un bus interno de alta velocidad denominado “bus de interconexión de elementos” (Element Interconnect Bus, EIB).

Debido a la naturaleza de sus aplicaciones, el Cell está optimizado para la computación de datos de coma flotante de precisión simple. Las SPE’s son capaces de ejecutar cálculos de doble precisión, pero a cambio de una penalización notable en el rendimiento. Sin embargo, existen modos de solucionar esto en el software por medio del empleo de refinamientos de tipo iterativo, lo que significa que los valores sólo serán calculados en doble precisión cuando sea necesario. Jack Dongarra y su equipo han hecho una demostración en público en la que un Cell a 3,2 GHz con 8 SPE’s proporcionaba un rendimiento igual a 100 GFLOPS procesando una matriz estándar Linpack 4096x4096 con datos de doble precisión

Elemento Power de Proceso (Power Processor Element)

El PPE es un núcleo de dos vías multihilo basado en arquitectura Power que actúa como controlador para las 8 SPE’s, que se ocupan de la mayor parte de la carga de computación. El PPE trabaja con sistemas operativos convencionales debido a su similitud con otros procesadores Power PC de 64 bit, mientras que las SPE’s están diseñadas para la ejecución de código vectorizado en coma flotante.

El PPE contiene instrucciones de 32 KB y memoria caché de nivel 1 de 32 KB, así como una caché de 512 KB nivel 2. Adicionalmente, IBM ha incorporado una unidad Altivec, la cual se encuentra configurada para procesar datos de coma flotante en doble precisión mediante pipelines.

Cada PPU puede completar dos operaciones de doble precisión por ciclo de reloj, lo cual se traduce en un rendimiento de 6,4 GFLOPS a 3,2 GHZ

Elementos Sinergísticos de Proceso (Synergistic Processing Elements, SPE)

Esquema del PPE.
Esquema del SPE.

Cada SPE se compone de una “unidad sinergística de proceso” (Synergistic Processing Unit, SPU) y una “controladora de flujo de memoria” (Memory Flow Controller, MFC, DMA, MMU, o bus interface).Una SPE es un procesador RISC con una organización SIMD de 128 bits preparada para ejecutar instrucciones de precisión doble o sencillaEn la generación actual de Cell, cada SPE contiene 256 KB de SRAM embebida, para almacenamiento de instrucciones y datos, denominada “almacenamiento local” (no confundir con “memoria local”, que en la documentación de Sony se corresponde con la VRAM), visible para la PPE y que puede ser direccionada directamente por software. Cada SPE soporta hasta 4 GB de memoria de almacenamiento local.

El almacenamiento local no opera como la caché de una CPU convencional, ya que no es ni transparente al software ni contiene estructuras para la predicción de los datos a cargar. Las SPE’s contienen una línea de registros de 128 bits con 128 entradas que mide 14,5 mm² con la tecnología de fabricación de 90 nm. La SPE puede realizar operaciones con 16 enteros de 8 bits, 8 de 16 bits, 4 de 32 bits o bien 4 números de coma flotante en precisión simple en un solo ciclo de reloj, así como realizar una operación de memoria. Obsérvese que la SPU no puede direccionar memoria del sistema directamente: las direcciones virtuales de 64 bits formadas en la SPU han de ser transmitidas a la unidad de control de flujo de memoria (MFC) para ejecutar una operación DMS dentro del espacio de memoria del sistema.

En un escenario de uso típico, el sistema cargará pequeños programas en las SPE’s (parecidos a hilos), encadenándolas juntas de manera que cada una se haga cargo de un pequeño paso en una operación compleja. Por ejemplo, un decodificador de sobremesa podría cargar programas para leer un DVD, decodificar audio y vídeo y control de pantalla; y los datos serían transmitidos de SPE a SPE hasta que finalmente alcanzaran la televisión. Otra posibilidad consiste en dividir los datos de entrada y poner a operar a las SPE’s en la misma tarea en paralelo. A 3,2 GHZ, cada SPE proporciona un rendimiento teórico de 25,6 GFLOPS en datos de precisión simple.

Comparado con un ordenador personal moderno, el mayor rendimiento relativo de un procesador Cell en coma flotante parece dejar en ridículo las capacidades de unidades SIMD en procesadores de sobremesa como el Pentium 4 y el Athlon 64. Sin embargo, comparar tan sólo las capacidades en coma flotante de un sistema es una manera de efectuar mediciones unidimensional y fuertemente ligado a ciertas aplicaciones. A diferencia de un procesador Cell, las CPU’s de escritorio están mejor capacitadas para ejecutar software de propósito general ejecutado habitualmente en ordenadores personales. Además de ejecutar varias instrucciones por ciclo de reloj, los procesadores de Intel y AMD proveen predicción de bifurcaciones. El Cell se diseñó para compensar esto con la ayuda de su compilador, en el que se crean instrucciones para la preparación de bifurcaciones. Para datos en precisión doble, usualmente empleados en ordenadores personales, el rendimiento del Cell decrece considerablemente, pero aún alcanza los 14 GFLOPS.

Pruebas recientes realizadas por IBM muestran que las SPE’s pueden alcanzar el 98% de su máximo teórico empleando multiplicación de matrices paralelas.

Toshiba ha desarrollado un coprocesador operado por cuatro SPE’s y ningún PPE, llamado SpursEngine, que está diseñado para acelerar 3D y efectos de películas en electrónica de consumo.

Bus de Interconexión de Elementos (Element Interconnect Bus, EIB)

El EIB es un bus de comunicaciones interno del procesador Cell que interconecta los diversos elementos de sistema integrados en el chip: el procesador PPE, el controlador de memoria (MIC), los ocho coprocesadores SPE y las dos interfaces externas I/O del chip, formando un total de 12 participantes. El EIB incluye una unidad de asignación que funciona como un conjunto de semáforos. En algunos de los documentos de IBM los participantes del EIB son denominados “unidades”.

Actualmente, el EIB se implementa como un anillo circular compuesto de 4 canales unidireccionales de 16 Bytes que rotan en sentido contrario a las agujas del reloj por parejas. Cuando los patrones del tráfico los permiten, cada canal puede transmitir hasta un máximo de 3 transacciones de forma concurrente. Dado que el EIB funciona a la mitad de velocidad del reloj del sistema, el rendimiento efectivo son 16 bytes cada dos ciclos de reloj. Con tres transacciones activas en cada uno de los cuatro anillos, esto es, con una concurrencia máxima, el pico máximo instantáneo en ancho de banda del EIB es de 96 bytes por ciclo de reloj (12 transacciones simultáneas*16 bytes/2 ciclos de reloj). Aún cuando este valor es normalmente citado por IBM resulta irreal escalar este número por la velocidad del procesador. La unidad de asignación impone restricciones adicionales, las cuales se discuten más abajo en la sección asignación de ancho de banda.

David Krolak, Ingeniero Jefe de IBM y director de diseño del EIB, explica el modelo de concurrencia:

« Un anillo puede comenzar una operación cada tres ciclos. Cada transferencia dura 8 impulsos. Esta fue una de las simplificaciones que hicimos. De este modo, se optimiza para la transferencia de muchos datos. Si efectúas operaciones pequeñas, no funciona tan bien. Piensa en trenes de ocho vagones circulando por esta vía. Siempre que los vagones no colisionen entre sí, pueden coexistir en la vía. »

Cada uno de los participantes en el EIB posee un puerto de lectura de 16 bytes y otro de escritura de 16 bytes. El límite para cada participante individual es el de leer y escribir a una velocidad de 16 bytes por ciclo de reloj (por simplicidad muchas veces se indican 8 bytes por ciclo de reloj). Téngase en cuenta que cada SPU contiene una cola de administración DMA dedicada capaz de de planificar grandes secuencias de transacciones hacia diversos puntos de destino sin interferir con los cálculos que la SPU esté llevando a cabo. Estas colas DMA pueden ser manejadas tanto de manera local como remota, proporcionando una flexibilidad adicional en el modelo de control.

Los datos circulan por un canal EIB en el sentido de las agujas del reloj alrededor del anillo. Dado que existen doce participantes, el número total de pasos alrededor del canal de vuelta al origen son doce. Seis pasos es la distancia máxima entre cualquier par de participantes. A un canal EIB no se le permite comunicar datos que requieran más de seis pasos. Este tipo de datos habrá de tomar la ruta más corta en la otra dirección. El número de pasos implicados en enviar un paquete tiene poco impacto en la latencia de transferencia: la velocidad de reloj que controla todos los pasos es muy rápida con relación a cualquier otra consideración. Sin embargo, distancias de comunicación más largas sí que son perjudiciales para el rendimiento general del EIB, dado que reducen la concurrencia disponible.

A pesar del deseo original de IBM de implementar el EIB como un conmutador (crossbar) más potente, la configuración circular que adoptaron para economizar recursos en muy raras ocasiones representa un factor limitador en el rendimiento del chip Cell como un todo. En el peor de los casos, el programador ha de tener un cuidado extra a la hora de planificar patrones de comunicación allí donde el EIB es capaz de funcionar con altos niveles de participación.

David Krolak explica:

« Bueno, al principio, en los inicios del proceso de desarrollo, varias personas promocionaban la idea de un conmutador (crossbar switch). Por el modo en que el bus estaba diseñado se podría retirar sin más el EIB e implantar un conmutador siempre que estuvieras dispuesto a dedicar más espacio en la oblea del chip a pistas. Teníamos que encontrar un equilibrio entre conectividad y espacio y sencillamente no existía suficiente espacio para poner un conmutador. Así que se nos ocurrió esta estructura de anillo, que pensamos es bastante interesante. Encaja con las restricciones de espacio y aún así proporciona anchos de banda bastante notorios. »

Asignación del ancho de banda

A la hora de citar cifras de rendimiento, asumiremos un procesador Cell corriendo a 3,2 GHz, la más frecuentemente citada. A esta frecuencia de reloj cada canal transmite a un ritmo de 25,6 GB/s. Contemplando el EIB aisladamente de los elementos que interconecta, alcanzar doce transacciones simultáneas con este ratio de transferencia arrojaría un ancho de banda teórico de 207,2 GB/s. Basándose en esta perspectiva muchas de las publicaciones de IBM describen el ancho de banda disponible en el EIB como “mayor de 300 GB/s”. Este número refleja el pico instantáneo de ancho de banda del EIB escalado por la frecuencia del procesador.

Sin embargo, otras restricciones técnicas se ven involucradas en el mecanismo de arbitraje para los paquetes que son aceptados en el bus. Como explica The IBM Systems Performance Group:

« Cada unidad en el EIB puede enviar o recibir simultáneamente 16 bytes de datos por cada ciclo de bus. El máximo ancho de banda para datos para todo el EIB es limitado por la velocidad máxima a la que las direcciones son vigiladas por todas las unidades en el sistema, que es de uno por ciclo de bus. Dado que cada petición de dirección vigilada puede transferir potencialmente hasta 128 bytes, el pico de ancho de banda teórico en el EIB a 3,2 GHz es de 128 bytes x 1,6 GHz = 204,8 GB/s. »

Esta cita representa aparentemente la mayor revelación pública por parte de IBM de este mecanismo y su impacto. La unidad de arbitraje del EIB, el mecanismo de vigilancia y la generación de interrupciones en segmentos o los fallos de traducción de página no están bien descritos en los juegos de documentación pública de IBM.

En la práctica el ancho de banda efectivo del EIB puede también estar limitado por los participantes involucrados en el anillo. Mientras que cada uno de los nueve núcleos de proceso puede mantener una velocidad de lectura y escritura de 25,6 GB/s de manera simultánea, el adaptador de controladora de memoria (memory interface controller ,MIC) está sujeto a un par de canales de memoria XDR que permiten un tráfico máximo de 25,6 GB/s para escrituras y lecturas combinadas; y las dos controladoras de E/S, según aparece en la documentación, soportan una velocidad máxima combinada de entrada de 25,6 GB/s y una velocidad máxima combinada de salida de 35 GB/s.

Para aumentar aún más la confusión, algunas publicaciones antiguas hablan del ancho de banda del EIB asumiendo un reloj de sistema de 4 GHz Este marco de referencia resulta en una cifra de ancho de anda instantáneo de 384 GB/s y en un valor de ancho de banda limitado por arbitraje de 256 Gb/s. El valor teórico de 204,8 GB/s, el más citado, es el mejor a tener en cuenta, considerando cualesquiera otros aspectos. El IBM Systems Performance Group ha realizado demostraciones donde se alcanzaban flujos de datos de 197 GB/s alrededor de las SPU’s en un procesador Cell corriendo a 3,2 GHz, así que esta cifra es un indicador fiable también en la práctica.

Interconexión óptica

Sony está actualmente trabajando en el desarrollo de una tecnología de interconexión óptica para su empleo como adaptador interno o entre dispositivos externos para varios tipos de sistemas de electrónica de consumo y de entretenimiento basados en Cell.

Controladora de memoria y E/S

El procesador Cell contiene un macro XIO Rambus doble canal de nueva generación, que interconecta con memoria XDR Rambus. La controladora adaptadora de memoria (MIC) está separada del macro XIO y ha sido diseñada por IBM. El enlace XIO-XDR corre a 3,2 GB/s en cada pin. Dos canales de 32 bits pueden proporcionar un máximo teórico de 25,6 GB/s.

El adaptador de sistema empleado en Cell, también un diseño Rambus, es conocido como FlexIO. La interface FlexIO está organizada en 12 carriles, siendo cada carril un canal de 8 bits punto a punto. Cinco caminos de 8 bits de ancho punto a punto son carriles de entrada al Cell, mientras que los siete restantes son de salida. Esto proporciona un ancho de banda máximo teórico de 62,4GB/s (36,5GB/s salida, 26GB/s entrada).

La interface FlexIO puede poseer una frecuencia de reloj independiente (típicamente, a 3,2 GHz). Cuatro canales de entrada y cuatro de salida se encargan de implementar la coherencia de memoria.


Consolas de videojuegos

La consola de videojuegos PlayStation3 de Sony contiene la primera aplicación fabricada del procesador Cell, a una velocidad de reloj de 3,2 GHz, con siete de los ocho SPE’s operacionales, lo que permite a Sony incrementar la producción en la fabricación del procesador. Solo seis de los siete SPE’s son accesibles para los desarrolladores, mientras que el séptimo se reserva para el sistema operativo.

Cine en casa

Se ha dicho que Toshiba está considerando la posibilidad de producir televisores de alta definición (HDTV’s) haciendo uso del Cell. Ya han presentado un sistema que decodifica 48 flujos de MPEG-2 en definición estándar simultáneamente en una pantalla de 1920x1080. Esto permitiría al usuario elegir un canal de entre docenas de vídeos en miniatura presentados simultáneamente en pantalla.

Supercomputación

La nueva supercomputadora planeada por IBM, el IBM Roadrunner, será un híbrido entre procesadores de propósito general CISC y procesadores Cell. Se dice que esta combinación producirá el primer ordenador capaz de operar a la velocidad del petaflop. Usará una versión actualizada del procesador Cell, fabricada con tecnología de 65 nm y con SPU’s mejoradas que puedan manejar cálculos en doble precisión en los registros de 128 bits, alcanzando los 100 GFLOPS en doble precisión.

Computación en clúster

Los clústeres de consolas PlayStation 3 son una atractiva alternativa a los sistemas de gama alta basados en Blades Cell. El Innovative Computing Laboratory, cuyo grupo lidera Jack Dongarra, dentro del departamento de ciencia computacional de la Universidad de Tenesse, investigó dicha aplicación en profundidad. Terrasoft Solutions, implementando las investigaciones de Dongarra, vende clústeres de PlayStation 3 de 8 o 32 nodos, con Yellow Dog Linux preinstalado. Como publicó la revista Wired el 17 de octubre de 2007, una aplicación interesante del uso de PlayStation 3 en configuración de clúster fue implementada por el astrofísico Dr. Gaurav Khanna, que sustituyó el tiempo empleado en superordenadores por ocho PlayStation 3.El laboratorio de computación bioquímica y biofísica de la Universidad de Pompeu Fabra en Barcelona construyó un sistema BOINC basado en el software CellMD (el primero diseñado específicamente para el Cell) llamado PS3GRID para computación compartida.

Con la ayuda del poder de cálculo de alrededor de medio millón de consolas PlayStation 3, el proyecto de computación distribuida Folding@Home ha sido reconocido por el libro Guiness de los Records como la más poderosa red de computación distribuida del mundo. El primer record se obtuvo el 16 de septiembre de 2007, cuando el proyecto sobrepasaba un PETAFLOPS, lo que nunca había sido alcanzado antes por ninguna red de computación distribuida. Los esfuerzos colectivos permitieron que sólo las PS3 alcanzaran la marca del PETAFLOPS el 23 de septiembre de 2007. En comparación, la supercomputadora más potente del mundo, el IBM BlueGene/L, tiene una potencia de alrededor de 280,6 TFLOPS. Esto significa que la potencia de cálculo de Folding@Home es aproximadamente cuatro veces la de BlueGene/L (aunque la interconexión entre CPU’s en BlueGene/L es más de un millón de veces más rápida que la media de velocidad en la red Folding@Home).