Como podéis observar en el título, uno sigue enrocado en poner títulos que llamen al atención de los humanos, no de los robots ni de las IA, así nos va con las visitas (otro día hablaré de esto). Pero al final creoq que merece la pena la calidad que la cantidad.
El título de la entrada hace referencia a un problema con el que hemos lidiado una semana en el taller y que nos ha vuelto locos, además de que nos ha hecho perder mucho tiempo y dinero… pero es lo que tiene depender de unos inútiles a la hora de diseñar BIOS y tener algo de mala suerte. Y además una de esas situaciones en las que mi socio no se explica como haya empresas que vendan las piezas para que el cliente final se monté el PC él solo… un caso como éste les hubiese dado problemas por todos los lados (o no… pero eso es otra cuestión).
Hace tres semanas vendimos un PC a una empresa para realizar tareas de diseño 3D, CAD, cálculo numérico. El equipo tenía que cumplir algunos requisitos de potencia, precio, tamaño, colores… al final por cierto le montamos esta caja:
A ver si la próxima semana subo una entrada sobre este PC y esta Lian Li A3, que nos ha gustado mucho.
Volviendo a lo de hoy. El PC iba equipado con un AMD Ryzen 9 7900X con 12 núcleos, una placa base Asus de gama media-alta con soporte para 256 gigas de RAM y en este caso el PC llevaría 64 gigas de RAM en dos chips de 32 gigas a 6.000 MHz.
Una vez el cliente nos confirma el presupuesto, pedimos los componentes que no teníamos en la tienda y procedemos a montarlo. Cuando empezamos los primeros tests el equipo empieza a hacer cosas raras: bloqueos, cuelgues, alguna pantalla azul… sin un patrón claro. Testamos los componentes sueltos y vemos que la RAM es la que está dando problemas. Dejamos un solo chip de RAM y el problema desaparece. Bajamos la velocidad a 5.200 MHz y el problema desaparece. Así que pensamos que hay algún problema con los chips de RAM. Teníamos algunos chips iguales en el taller y los cambiamos… el problema persiste. En el taller se dan cuenta que los chips son todos de la misma marca y modelo. Así que piensan que tal vez la placa base Asus se lleva mal con esos chips en concreto. Así que hacen un pedido de cuatro chips de otras marcas y modelos para probar.
Como los problemas no vienen solos… el transporte nos pierde la caja donde venían los chips, tenemos que reclamarlos y estamos dos días sin poder probar el cambio de RAM. Cuando llegan los chips nuevos… el problema continua. Ahora los síntomas no son idénticos…pero hay tests que el PC no pasa. Con un modelo de chip en concreto tarda más en aparecer el problema… pero al final surge y el PC se cuelga.
El siguiente candidatos a causar este problema es la placa base. Así que en el taller piden otra placa base Asus, pero un modelo más moderno y de gama superior. Aquí otra vez retrasos… fiesta local en la capital de la provincia y los paquetes se quedan a mitad de camino. Al final llega la nueva placa base Asus. En el taller cambian todo el PC a la nueva placa base. El problema sigue ahí. Como con el cambio de RAM, los síntomas no son exactamente iguales, pero en las pruebas de stress el PC va a tirones y de vez en cuando se congela (ni se cuelga, ni pantalla azul) durante unos minutos.
El tercer candidato al problema sería el procesador. Microprocesadores que vengan rotos de fábrica nos aparece uno al lustro. Es muy raro, pero era lo único que nos faltaba. En ese momento en el taller teníamos dos PCs parecidos a mitad montaje. Uno con un Ryzen 9 9900X y otro con un Ryzen 7 9700X. Así que en el taller prueban con estos micros… y ninguna de los dos placas base Asus falla sin importar el modelo de chip de memoria que prueben. Así que piensan que el problema es del micro. Piden otro Ryzen 9 7900X. Con éste tenemos suerte, lo piden con transporte urgente y nos llega el mismo día. Pinchan el micro nuevo… y el problema vuelve a aparecer.
Aquí ya estamos desesperados. Así que empezamos a buscar por Internet si hay reportes con este problema. Todo lo que encontramos parecido es de hace años. Comprobamos si teníamos la última versión de la BIOS en las placas base. Y la tenían, es una de las primeras cosas que hacen en el taller, actualizar la BIOS. Pero en este caso además las dos placas venían con versiones Beta. Algo que no entiendo es que vendas una placa base con una BIOS beta…
Miramos el changelog de las dos BIOS y ambas traen el mismo cambio: nueva versión de Agesa de AMD con varias mejoras, entre ellas una para que los PCs con varios chips de RAM pueden trabajar bien a altas velocidades (algo de lo que tengo pendiente una entrada). Pensamos que tal vez ese sea al problema. Si dejamos un solo chip o bajamos la velocidad no falla el sistema. Así que decidimos dar marcha atrás a al actualización de la BIOS e instalar una versión que tenga el Agesa de AMD anterior. Bajamos la BIOS de la web de Asus… pero no nos deja volver a atrás en ninguna de las dos placas base.
Entonces nos acordamos de que tenemos una placa base MSI pendiente de hacer una RMA desde hace unas semanas en el taller. Es una placa que funcionaba bien… pero a la que de vez en cuando se le desconectaba el Wifi. Así que probamos el AMD Ryzen 9 7900X con esa placa base. No aparece ningún problema con ninguno de los dos micros ni con cualquier modelo de memoria RAM. Dos chips funcionan perfectamente a 6000 MHz y pasan todos los tests de stress y de estabilidad sin fallos. Miramos la BIOS de la MSI y a pesar de que estaba actualizada, la versión de Agesa era la anterior a la de la Asus.
Así que creemos que esa versión de Agesa con algunas placas base Asus se lleva mal con chips de RAM a 6000Mhz en parejas. Y como Asus ya no deja en estas BIOS modernas volver a atrás, pues nos quedamos con las ganas de comprobarlo directamente.
La solución al final fue pedir a este cliente una placa base MSI de la misma gama y con las misma prestaciones que la Asus. Las dos placas Asus se quedan para montar con micros de la serie AMD 9xxx donde comprobamos que no fallaba la RAM.
Y ahora volviendo a la reflexión inicial de mi socio: ¿Cómo resuelve esto un cliente que se compra el PC por piezas?
Por cierto Asus no debería enviar a la venta final placas base con BIOS beta, ni por supuesto bloquear su sustitución por versiones anteriores, pero es lo que hay.