Mobile and Desktop Processors
Intel® Core™ processors, Intel Atom® processors, tools, and utilities
17063 Discussions

CPU's - 6 von 8 Kernen schlafen ein und sind nur durch Ausschalten des Server wieder zum Leben zu erwecken

idata
Employee
7,962 Views

Ich habe einen Server laufen, auf dem 2 CPU's XEON E5 2637 v3 verbaut sind.

 

Im Durchschnitt alle 14 Tage nach einem Wochenende, wo der Server keine Leistung bringen muß,

 

ist der Bustakt von max 3,5GHZ auf ca. 0,4GHZ FEST eingestellt und bewegt sich nicht mehr höher. Auch nicht, wenn Leistung benötigt wird.

Man muß den Server AUSSCHALTEN und wieder einschalten, dann läuft alles wieder Normal. Ein Neustart bringt keine Änderung.

Die Parkfunktionen wurden getestet und funktionieren bis zum Zeitpunkt, wo dieser Fehler auftritt.

2 Kerne werkeln dann noch mit 0,4GHZ und die anderen 6 liegen brach.

Bis der Fehler auftritt, sind bei Tests (seit 8 Monaten) zwischen 3 und 35 Tagen vergangen...

Ich habe ein Servermainboard der Firma Gigabyte MW70-3S0 verbaut und auch schon das aktuellste BIOS R05 drauf.

Stromsparfunktionen sind DISABLED. Auch Enabled bringt keine Änderung.

 

Beim nächsten Neustart werde ich im BIOS mal noch "EIST" auf Disabled stellen...

Als Speicher habe ich 4x 16GB Corsair DDR4-2133Mhz Module verbaut. "CMK64GX4M4A2133C13" (je CPU 2 Module)

Als Netzteil habe ich ein redundantes Netzteil

FSP500-60MRA(90)

2x500Watt verbaut.

Hat jemand eine IDEE? Es werden ja wohl nicht gleich 2 Prozessoren den gleichen Fehler haben...

0 Kudos
14 Replies
idata
Employee
6,002 Views

You may need to test one processor at a time. This will let you know if one of the processors are failing.

 

You could also run the processor diagnostic tool:

 

https://downloadcenter.intel.com/download/19792/Intel-Processor-Diagnostic-Tool https://downloadcenter.intel.com/download/19792/Intel-Processor-Diagnostic-Tool

 

 

In case of warranty service, you need to call your local Intel support at

 

http://www.intel.com/content/www/us/en/support/contact-support.html http://www.intel.com/content/www/us/en/support/contact-support.html

 

 

Allan.
0 Kudos
idata
Employee
6,002 Views

Hallo,

Übrigens läuft als Betriebssystem darauf Windows Server 2012 R2 64Bit.

In der Liste ist die CPU E5-2637 v3 aber nicht aufgeführt... Funktioniert da der Test trotzdem Zuverlässig?

Der Test läuft nun als Loop. Ein Einzeltest hat keine Ergebnisse gebracht. Bisher ist auch im Loop-Test kein Fehler aufgetreten.

Gibt es die Möglichkeit einer Leihstellung für Ersatzprozessoren?

Ich stehe auch direkt mit der Technik des Boardherstellers in Kontakt. Die haben die gleiche Konfiguration

zum Testen laufen, um auszuschliesen, das es ein Board / BIOS Fehler ist.

Der Fehler ist aber bei zwei identischen Boards (mit Altem & mit Neuem BIOS) auch identisch aufgetreten.

Übrigens hatte ich einen Test (Prime95) laufen lassen, um zu sehen, ob die damit "Beschäftigten" Kerne

dann vielleicht nicht auf 0,4GHZ herunterschalten und dann dort verharren... (Die liefen bei 99-100%)

Den Tag darauf früh arbeiteten beide CPU (davon je 2 Kerne) wieder mit 0,4Ghz und die anderen Kerne taten rein gar nichts. :-(

0 Kudos
idata
Employee
6,002 Views

I see the processor is listed, see the attachment.

 

 

I do not have same hardware configuration. I would recommend contacting Intel processor support through the contact Intel link placed below:

 

http://www.intel.com/content/www/us/en/support/contact-support.html http://www.intel.com/content/www/us/en/support/contact-support.html

 

 

Allan.

 

0 Kudos
idata
Employee
6,002 Views

Das ist nicht der gleiche Prozessor!

ich habe die "XEON E5-2637 v3" , sie haben nur die "XEON E5-2637"

meiner hat 3500Mhz , sie haben 3000Mhz

Die Modell unterscheiden sich z.B. auch im Cache...

Es gibt mittlerweile auch einen "XEON E5-2637 v4"

0 Kudos
idata
Employee
6,002 Views

Hallo,

heute wieder einen Zwischenstatus. Gestern habe ich das CPU-Test-Tool im Loop gestartet.

Heute früh kurz vor Arbeitsbeginn hat sich das Tool in der Firma der Systemadministrator bei laufendem Betrieb angeschaut.

WÄHRENDDESSEN passierte es, das die Taktfrequenz herunter ging. (Der Server arbeitet halt nur merkbar langsam weiter)

Im oben vorgeschlagenen CPU-Test-Tool wurden aber KEINE FEHLER angezeigt!

Es lief LANGSAM, halt mit 0,4GHZ (wie im Taskmanager oben zu sehen) weiter. Test Pass.. Test Pass.. Test Pass......

In 4 Tagen ist es also 3x passiert.

Ich habe den Verdacht, das es unter "Last" schneller passiert. (Im Normalbetrieb ist die Last derzeit nur sehr unbedeutend)

Bisher war der BIOS-Menüpunkt "Advanced Power Management" komplett Disabled!

Jetzt ist es "Enabled" und ich habe EIST Disabled...

Aber eigentlich hat das doch nichts mit Stromsparfunktionen zu tun, wenn die CPU unter Vollast

von 3,5 GHZ auf 0,4GHZ runtergefahren werden und dort wie angenagelt stehen bleiben!!!

(Zu heiß werden die auf keinen Fall! Max. 60° unter Vollast wurden ausgelesen. Im Normalbetrieb, wenn der Fehler auch auftritt haben die CPU's zwischen 25 und 30°C.)

Als würde man (Brainstorming) bis 234458583773 x 10³³²²³²²³³³² Taktzyklen zählen (Beispiel) und dann einfach heruntertakten. (Bei weniger Last halt entsprechend später)

Der Systemadministrator hat heute früh das "Powermanagement" auf "Enabled" gestellt und unter "CPU-P-State" die Option "EIST" mal auf Disabled.

Mal sehen, ob das eine Änderung bringt. Wenn es Vorschläge zur Änderung der Einstellungen hier gibt, bitte her damit. ;-)

Vielleicht macht es Sinn das C1E auch noch auf Disabled zu stellen...

Viele Grüße

0 Kudos
idata
Employee
6,002 Views

Nächster Test abgeschlossen: Powermanagement eingeschalten - EIST auf Disabled

Heute früh, wieder Urlaubsmodus der CPU's mit 0,4GHZ statt 3,5GHZ und kein Test oder Leistungsbedarf kann etwas bewegen:

Mit Kerne parken und Stromsparfunktionen scheint das ganze nichts zu tun zu haben, denn die Kerne parken und entparken auch bei

dieser Urlaubsfrequenz von 0,4GHZ.

Das INTEL-Testtool schafft es lediglich bis max 14% der Prozessorlast zu erzeugen:

0 Kudos
idata
Employee
6,002 Views

I recommend contacting Intel support at http://www.intel.com/content/www/us/en/support/contact-support.html http://www.intel.com/content/www/us/en/support/contact-support.html

 

Make sure to select your area of support and interact with our processor support team.

 

 

Allan.
0 Kudos
idata
Employee
6,002 Views

Aufgrund eines Gespräches mit einem Techniker von INTEL, der zu 95% eine Inkompatibilität mit dem Servernetzteil vermutet,

habe ich nun noch mit einem Entwicklungsingenieur des Netzteilherstellers gesprochen.

Wir machen also einen neuen Test...

Ich habe nun den PMBUS-Stecker des Netzteiles vom Board abgezogen. Zusätzlich habe ich auch wieder alle Power-Management-Einstellungen Disabled.

Sollte der Fehler wieder auftreten, dann kann es sein, das der Boardhersteller (Pin3 PS_Alert) den Signal-Status falsch definiert hat.

Standard "INTEL PMBUS Ver. 1.2" wäre:

Es könnte ja sein, das die Low und High Werte vertauscht worden sind.

Gigabyte macht dazu leider nirgends eine Angabe fürs Board.

Ich hoffe so langsam nähert man sich dem Ziel einer Lösung.

Bis jetzt läuft der Server im "Normalzustand" also ohne großartige Leistung mit über 2,0GHZ und wenn Leistung gefragt ist, taktet er auch bis 3,5GHZ hoch.

Diverse Kerne parken auch trotz "APM" Disabled ein und aus...

Wenns was Neues gibt, dann setze ich hier wieder was dazu... Jetzt warte ich erst mal mindestens 14 Tage ab.

0 Kudos
idata
Employee
6,002 Views

Thank you for letting me know this type of details. I hope you can test the motherboard and get a final resolution.

 

 

Allan.

 

0 Kudos
idata
Employee
6,002 Views

Were you able to check the motherboard with the manufacturer?

 

 

 

Allan.
0 Kudos
idata
Employee
6,002 Views

Hallo,

das wird sich NACH Ablauf der Test herausstellen, die zur Zeit laufen.

Die Tests werden noch 4-5 Wochen in Anspruch nehmen, da ich ja nicht im Serverraum wohne

und mich dort auch nur alle 2-3 Wochen aufhalte...

Wenn es neue Erfahrungswerte gibt, dann melde ich mich!

Bis dahin bitte einfach Geduld...

Ein deutsches Sprichwort sagt: "Gut Ding will Weil haben"

Bisher gab es nach 12 Tagen keine Heruntertaktung mehr nach abziehen des PMBU-Steckers...

0 Kudos
idata
Employee
6,002 Views

Thank you for letting me know about it. Please update this thread at your convenience.

Allan.

0 Kudos
idata
Employee
6,002 Views

Hallo,

so, nun ist eine Testphase von mehr als 35 Tagen verstrichen und der Server macht das was er soll !

Der PMBUS Stecker des Netzteils wurde vom Board getrennt und der Server rennt, wie es sein soll.

Es liegt also ein Kommunikationsproblem zwischen Netzteil und Mainboard vor.

Irgend jemand hat da beim "PSALERT"-Pegel vermutlich einen falschen Wert eingetragen! (Entweder Netzteil oder aber Mainboard)

(Die Tabelle nach "INTEL PMBUS Ver. 1.2" steht oben)

Da ich derzeit keine Zeit habe, den Signalpegel am Board oder am Netzteil (PMBUS) zu messen, gibts derzeit die SCHNELLERE LÖSUNG:

Drauf geschissen ;-) PMBUS Stecker weg und alle Komponenten laufen problemlos.

Die Stromsparfunktionen gehen trotz im BIOS ausgeschaltetem POWER Management, und sind im vorliegenden Falle sowieso nicht erforderlich...

Die wahren Stromfresser liegen beim Kunden eh wo anders...

Vielen Dank allen, die bei der Lösung des Problems mitgeholfen haben - besonderer Dank an den Herrn X ? von INTEL, der die Ursache des Problems zuerst

beim Namen nannte.

Sollte ich dennoch mal zum Messen des Pegels kommen, hinterlasse ich das natürlich auch hier!

Glück Auf !

0 Kudos
idata
Employee
6,002 Views

Thank you for sharing details about the processor test. I am glad to hear this is working for you.

 

 

Allan.
0 Kudos
Reply