Seleccionar página

Probamos el Bulldozer: FX-8150 y tres placas base 990FX en el banco de pruebas

Probamos el Bulldozer: FX-8150 y tres placas base 990FX en el banco de pruebas

Technologia

Los chips se fabrican en el nodo SHP de 32 nm de GlobalFoundries. Para las topadoras, el SOI introducido anteriormente se ha combinado con HKMG (High-K Metal Gate) de Intel, que puede ayudar a combatir las fugas de corriente. La arquitectura está bien diseñada para lograr altas velocidades de reloj ("Speed ​​racer"), por lo que es probable que la gama de modelos esté completamente desprovista de productos por debajo de 3 GHz. Todas las unidades centrales en el idioma antiguo son Black Edition, por lo que ahora no están marcadas específicamente.

En este punto, tomemos un pequeño desvío y miremos también el otro lado de la moneda. El procesador Phenom II de cuatro núcleos más rápido funciona a 3,7 GHz y el procesador 1100T de seis núcleos basado en el chip Thuban marca a 3,3 GHz. En comparación, el disparo base del AMD FX-32 de 8150 nm es casi decepcionantemente bajo y solo el "nivel" de 4,2 GHz del Turbo Core es aceptable, lo que inmediatamente promete un excedente de energía del 10-15% (no). XbitLabs ventiló hace un año que el Bulldozer estaba cruzando el reloj de 3,5 GHz, que se unió, pero a pesar de una serie de deslizamientos. Parece correcto suponer que todavía existen serios problemas con la producción y la salida del nuevo cañón, que también tiene un impacto significativo en el rendimiento.

amd_bulldozer_seis velocidades
El segundo número entero solo aumenta el tamaño del módulo en un 12 por ciento. [+]

Sobre la base de muchos años de experiencia, nació incluso un concepto básico, que se basó en lo siguiente: las unidades centrales realizan operaciones de punto fijo a una tasa promedio de más del 80 por ciento. A partir de esto, se puede ver que los cálculos de punto flotante están mucho menos presentes en la vida de los "ciempiés". En el diseño, en consecuencia, se conectan dos núcleos enteros, que tienen su propia caché de primer nivel, pero ya tienen que compartir la caché de segundo nivel y la unidad de punto flotante. AMD ha nombrado a la unidad como módulo.

amd_bulldozer_one_module
Un módulo [+]

Según las mediciones internas, el segundo número entero básicamente aumenta el tamaño del módulo en un grado insignificante, en contraste, idealmente puede causar un aumento de rendimiento de hasta un 80%. La parte de la caché principal responsable de los datos está conectada directamente a los procesadores (tamaño de 16 Kbytes, retardo de reloj de 4), pero la caché de 64 Kbytes diseñada para almacenar instrucciones ya se comparte entre los enteros.

1_module_what_which
Profundizando [+]

Según los resultados de la prueba, la caché de datos L1 no solo es demasiado pequeña, sino incluso lenta, por lo que no es una muy buena combinación. El tamaño del almacenamiento de segundo nivel compartido dentro del módulo es satisfactorio, pero su latencia es alta, 25-27 ciclos. Es fácil imaginar que una caché L1 más grande y una L2 más rápida (12-15 ciclos) mejorarían el rendimiento del procesador en un 10-20%.

No es sorprendente que alcanzar los 8 MB L3 tampoco sea a la velocidad de la luz (65 ciclos). En resumen, el sistema de caché Bulldozer no será la octava maravilla del mundo.

instrucciones
En el conjunto de instrucciones maze [+]

Bulldozer tiene actualmente el conjunto más amplio de soporte de conjunto de instrucciones: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ y, por supuesto, la extensión de 64 bits. De las dos innovaciones (FMA4, XOP), FMA4 es de gran importancia en el mercado de HPC y XOP ofrece una ligera ventaja sobre las aplicaciones multimedia. Hasta donde sabemos, la última versión de x264 ya es compatible con los nuevos conjuntos de instrucciones. 3DNow obsoleto! El soporte ha sido descontinuado, creo que no causa muchas noches de insomnio a muchos lectores.

Se sabe que utiliza su Intel VT para acceder a la memoria virtual x86. IOMMU aumenta significativamente el rendimiento de la virtualización del sistema; sin embargo, sorprendentemente, las soluciones de gama alta de Intel (Core i5-2600K, i7-2600K) no son compatibles con esta tecnología y este "círculo negro" incluye las soluciones Sandy Bridge E actuales. De nuevo, un servicio extra en comparación con la competencia directa, aunque su utilidad para el usuario medio es cuestionable.

40
Turbo Core en teoría [+]

El Turbo Core también se ha desarrollado aún más, trabajando con múltiples puertas de reloj e incluso mejor adaptado a diversos grados de utilización. Si todos los núcleos están activos pero las unidades de punto flotante no están actualmente en uso, el reloj Turbo Core 2.0 entrará en vigencia. El procedimiento cambia dinámicamente las señales de reloj de los núcleos en función de la carga, recursos inactivos, módulos y componentes dentro del módulo se pueden desconectar, por lo que en esta área no se entendería una queja al frente de la casa. Desafortunadamente, el lado del software te lanza completamente a la sopa.

en la práctica
Implementación práctica [+]

El Programador de Windows 7, por decirlo suavemente, no es la forma más eficiente de asignar tareas porque con frecuencia alterna la asignación de tareas entre núcleos. La próxima versión del sistema operativo solucionará el problema y pronto se hará una solución para este sistema, por lo que, en casos extremos, puede ser del 15 al 25 por ciento, pronto obtendremos un 2 a 10% más de rendimiento. Otro beneficio muy bueno será que el consumo de energía inactivo se puede reducir en 4-5 vatios porque los módulos pueden permanecer “ahorrando” por más tiempo.

excavadorawin8_and_bf3
"No mires tus dientes por un regalo de desempeño" [+]

excavadorabf3betafx

La "transformación" durante Battlefield 3 [+]

Battlefield 3 también muestra bien cuánto ayuda la optimización a un procesador. En este juego, el procesador de la serie FX más potente actualmente puede alcanzar el rendimiento del Core i7-2600k.

Los procesadores de la serie FX vienen con una carcasa Socket AM3 + y están alojados en placas base AMD con un chipset de la serie 9. La orientación también se ve facilitada por el color del encaje, que es en su mayoría negro. Para implementar la plataforma infinitamente sónica Scorpius, necesitamos un procesador de la serie FX, una placa base con un chipset de la serie 9 y una tarjeta de video de la serie Radeon HD 6000. El Bulldozer tiene un controlador de memoria DDR1866 de dos canales que admite módulos de 3 MHz.

phenomu_folulk

AMD FX-8150 con un Phenom II X4 970 BE - desde arriba [+]

Para concluir, nos gustaría agregar otra adición interesante. Una seria controversia ha suscitado el hecho de que el trabajo realizado por hora (instrucciones por ciclo) por los procesadores basados ​​en Bulldozer ha disminuido, en promedio, algo en comparación con su predecesor. Algunos imaginan inmediatamente la caída de la arquitectura, otros enumeran ejemplos similares del pasado. En este sentido, como siempre, limitémonos a los hechos. Los programadores de hoy se están dando cuenta cada vez más de los beneficios de la optimización de múltiples núcleos. Con un motor de 8 cilindros que básicamente ofrece un buen rendimiento, rara vez pensamos en lo que puede hacer con 1 cilindro.

Fenomualulk

AMD FX-8150 con un Phenom II X4 970 BE - abajo [+]

El ejemplo no es el mejor, pero puede arrojar luz sobre este punto. No estamos diciendo que haremos un uso óptimo de ocho núcleos enteros densamente, pero Turbo Core 2.0 apunta al reloj más alto posible (4,2 GHz) en este caso. Lo que solo está disponible en el caso de K10.5 al precio de "sudor sangriento" se considera aquí un "reloj base". Tampoco hay duda de que la implementación de AVX, FMA y XOP ha costado un conjunto significativo de transistores. Los conceptos básicos de la arquitectura se utilizan en varios segmentos (servidor, PC de escritorio), por lo que este parecía un paso obligatorio, pero hoy vemos aún menos de sus beneficios (especialmente en un entorno de escritorio).

socket_2k

Acostado en la cama [+]

Idealmente (FMA4 + AVX), el Bulldozer realmente se siente muy elemental, ofrece un rendimiento sorprendente y pone las cosas bajo una luz diferente de inmediato. Según las mediciones del HT4U alemán, durante la aplicación de renderizado C-Ray 1.1, el AMD FX-8150 funciona en los mismos 15 segundos que el Intel Core i7 990X. Eso es exactamente la mitad del tiempo que le tomó a un procesador AMD Phenom II X6 1100T hacer el trabajo. Anotamos entre paréntesis que también sopesamos el otro extremo, Super PI.