#31
|
|||
|
|||
ECC
Dmitry Protasoff написал(а) к Eugene Muzychenko в Mar 23 20:29:06 по местному времени:
Нello, Eugene! Saturday March 11 2023 20:52, you wrote to me: DP>> На практике повреждения файлов и зависания как раз не редкость. EM> У кого? Почему я этого никогда не видел? Возможно, некоторые (раз в Могу процитировать Линуса, который с этим намучался: "Торвальдс написал, что стандартная память - это <кошмар>, с которым приходится иметь дело при разработке кода для ядра операционной системы. Линус описывает <головные боли>, связанные с попытками найти место возникновения необъяснимой ошибки ядра, утверждая, что эти ошибки часто бывают результатом аппаратной проблемы, а не проблемы с самим кодом." EM> нарушения целостности ФС после падения системы я последний раз видел в EM> 90-е, на FAT32. А я на в прошлом месяце после глюков на одном из vSAN хранилищ :) DP>> Наоборот - правильно работают, ибо DIMM с ошибками просто DP>> перестает использоваться, если там была найдена неипсравляемая DP>> ошибка. И идет на замену. EM> Э-э-э... Как это выглядит технически? Вот стоит DIMM, в котором лежит EM> код ядра, или системной службы, или рабочего софта, или базы данных - EM> системной или какого-нибудь достаточно важного софта. Происходит EM> неустранимая ошибка при попытке прочитать что-либо оттуда. Каким EM> образом перестать использовать этот DIMM, продолжив работу без него, EM> если у него нет зеркальной копии? С этой физической машины выводятся сразу же все виртуалки и хост гасится. DP>> Системные файлы не переписываются постоянно, пример не корректен. EM> Постоянно переписываются многие записи реестре, почтовик регулярно EM> перезаписывает свои базы, коих несколько сотен мегабайт, Не понятно, как проверять целостность базы и реестра? Записалась туда кучка кривых байт - как про это узнать? Best regards, dp. --- GoldED+/W64-MSVC 1.1.5-b20180707 |
#32
|
|||
|
|||
ECC
Eugene Muzychenko написал(а) к Dmitry Protasoff в Mar 23 10:11:22 по местному времени:
Привет! 11 Mar 23 20:29, you wrote to me: DP> "Торвальдс написал, что стандартная память - это <кошмар>, с которым DP> приходится иметь дело при разработке кода для ядра операционной DP> системы. Линус описывает <головные боли>, связанные с попытками найти DP> место возникновения необъяснимой ошибки ядра, утверждая, что эти DP> ошибки часто бывают результатом аппаратной проблемы, а не проблемы с DP> самим кодом." Скорее всего, он имел в виду как раз серверные применения, когда железо и софт круглосуточно работают на предельных нагрузках. Я пишу ядерный код почти сорок лет, почти везде он работает в памяти без ECC, и я ни разу не видел на рабочих станциях воспроизводимых ошибок при отсутствии ошибок в коде. На серверах - возможно, я с ними почти не работал. А на рабочих станциях код или работает месяцами без сбоев, или в нем обнаруживаются ошибки, третьего не бывает. DP> С этой физической машины выводятся сразу же все виртуалки и хост DP> гасится. Кем эти виртуалки "выводятся", если код или данные, которые для этого нужны, расположены в сбойной области? DP> Не понятно, как проверять целостность базы и реестра? Записалась туда DP> кучка кривых байт - как про это узнать? По сообщениям об ошибках от программ, которые с ними работают. Если программы не проверяют целостность - по ошибкам в работе самих программ. Если ни того, ни другого не наблюдается - значит, или ошибок памяти нет, или они происходят там, где никого не парят, вот и все. Всего доброго! Евгений Музыченко fi-do@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20180707 |
#33
|
|||
|
|||
ECC
Dmitry Protasoff написал(а) к Eugene Muzychenko в Mar 23 13:28:32 по местному времени:
Нello, Eugene! Sunday March 12 2023 10:11, you wrote to me: EM> Скорее всего, он имел в виду как раз серверные применения, когда EM> железо и софт круглосуточно работают на предельных нагрузках. Я пишу Он имел в виду известно что - работу кернела на любом компьютере, именно потому что сам купил себе личный компьютер именно с ECC. EM> и я ни разу не видел на рабочих станциях воспроизводимых ошибок при EM> отсутствии ошибок в коде. На серверах - возможно, я с ними почти не Видел много раз. DP>> С этой физической машины выводятся сразу же все виртуалки и хост DP>> гасится. EM> Кем эти виртуалки "выводятся", если код или данные, которые для этого EM> нужны, расположены в сбойной области? Гипервизор. Если не повезло ему - то да, весь сервер накрылся. Но он занимает не так много места - так что шансы, что он выжил - очень высоки. DP>> Не понятно, как проверять целостность базы и реестра? Записалась DP>> туда кучка кривых байт - как про это узнать? EM> По сообщениям об ошибках от программ, которые с ними работают. Если А как они поймут, что данные побились? Вот на примере базы, куда записалась кривая запись, но валидная по структуре. Вместо одной цифры - другая. А ошибка может стоить кучу денег. Best regards, dp. --- GoldED+/W64-MSVC 1.1.5-b20180707 |
#34
|
|||
|
|||
ECC
Stanislav Vlasov написал(а) к Eugene Muzychenko в Mar 23 20:32:08 по местному времени:
Привет, Eugene! 11 Mar 23 11:36, Eugene Muzychenko -> Dmitry Protasoff: DP>> Раз в месяц - это не ничтожная. EM> Даже при средней вероятности ошибки раз в месяц, эта вероятность Всё ж поменьше вероятность. На работе в серверах как раз ECC, там за ~1.5 лет из ~300 серверов в среднем по ~200ГБ памяти хоть какая-то ошибка была на двух (единичный бит, ошибка исправлена, но алерт пришел). Впрочем, тут, вероятно, всё зависит как от производителя, так и от режимов работы. Думаю, что в домашнем компе память может и подогреться посильней, чем в сервере, стоящем в дц с кондиционерами. С наилучшими пожеланиями, Stanislav. --- -.-.-.-.-.- |
#35
|
|||
|
|||
ECC
Eugene Muzychenko написал(а) к Dmitry Protasoff в Mar 23 21:46:34 по местному времени:
Привет! 12 Mar 23 13:28, you wrote to me: DP> Он имел в виду известно что - работу кернела на любом компьютере, DP> именно потому что сам купил себе личный компьютер именно с ECC. Ну и флаг ему в руки. Я в рабочие компы ECC никогда не ставил и не планирую, как и подавляющее большинство разработчиков, которым он тоже нах не сдался. DP> Вот на примере базы, куда записалась кривая запись, но валидная по DP> структуре. Вместо одной цифры - другая. Еще раз повторю про вероятности. На типичной рабочей станции, которая не вылизана, не "притерта", не эксплуатируется в строгом соответствии со всеми выработанными именно для данной конфигурации правилами, вероятность искажения данных из-за ошибок памяти ничтожна на фоне вероятности того же на фоне любых других аппаратных/программных сбоев. DP> А ошибка может стоить кучу денег. Ну да, у каждого ведь дома филиал банка или биржи... Всего доброго! Евгений Музыченко fi-do@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20180707 |
#36
|
|||
|
|||
ECC
Eugene Muzychenko написал(а) к Stanislav Vlasov в Mar 23 21:55:03 по местному времени:
Привет! 12 Mar 23 20:32, you wrote to me: EM>> Даже при средней вероятности ошибки раз в месяц, эта вероятность SV> Всё ж поменьше вероятность. Это я уже Протасову подыграл, но его в очередной раз заклинило, теперь он не успокоится, пока не придумает 100500 обоснований своей точки зрения. :) SV> На работе в серверах как раз ECC, там за ~1.5 лет из ~300 серверов в SV> среднем по ~200ГБ памяти хоть какая-то ошибка была на двух (единичный SV> бит, ошибка исправлена, но алерт пришел). О том и речь, что даже серверы с круглосуточной нагрузкой вполне можно гонять на памяти без ECC, риски очень небольшие. А уж на рабочей станции с ее умеренной нагрузкой, да где память забита в основном браузерным мусором, нарваться на ошибку, да в критичной области кода/данных - удача куда более редкая, чем словить любой другой глюк. SV> Впрочем, тут, вероятно, всё зависит как от производителя, так и от SV> режимов работы. Ну да, когда я увлекался разгонами, выставляя режимы "на грани", ошибки памяти быстро давали о себе знать. :) SV> Думаю, что в домашнем компе память может и подогреться посильней, чем SV> в сервере, стоящем в дц с кондиционерами. Обычно для этого ее надо разогнать. На дефолтных таймингах она, как правило, лишь умеренно теплая. Всего доброго! Евгений Музыченко fi-do@muzy-chen-ko.net (все дефисы убрать) --- GoldED+/W32-MSVC 1.1.5-b20180707 |
#37
|
|||
|
|||
ECC
Dmitry Protasoff написал(а) к Eugene Muzychenko в Mar 23 21:21:00 по местному времени:
Нello, Eugene! Sunday March 12 2023 21:46, you wrote to me: DP>> Он имел в виду известно что - работу кернела на любом компьютере, DP>> именно потому что сам купил себе личный компьютер именно с ECC. EM> Ну и флаг ему в руки. Я в рабочие компы ECC никогда не ставил и не EM> планирую, как и подавляющее большинство разработчиков, которым он тоже EM> нах не сдался. Так они и не могут воспользоваться - мало компов с ECC. Но Торвальдс явно разбирается в вопросе лучше, чем "большинство разработчиков". DP>> Вот на примере базы, куда записалась кривая запись, но валидная DP>> по структуре. Вместо одной цифры - другая. EM> Еще раз повторю про вероятности. На типичной рабочей станции, которая Если в памяти есть сбойное место - оно может портить данные годами! DP>> А ошибка может стоить кучу денег. EM> Ну да, у каждого ведь дома филиал банка или биржи... Ну если свои данные людям не ценны - то конечно.. Но часто стоимость данных сильно выше стоимости компьютера. Best regards, dp. --- GoldED+/W64-MSVC 1.1.5-b20180707 |
#38
|
|||
|
|||
ECC
Dmitry Protasoff написал(а) к Eugene Muzychenko в Mar 23 21:26:34 по местному времени:
Нello, Eugene! Sunday March 12 2023 21:55, you wrote to Stanislav Vlasov: EM> О том и речь, что даже серверы с круглосуточной нагрузкой вполне можно EM> гонять на памяти без ECC, риски очень небольшие. А уж на рабочей Риски огромны. Если у меня побьются биллинговые данные - сумма может быть значительной. И еще раз - битое место в памяти может искажать данные годами. И обнаружить это можно только тогда, когда катастрофа случилась. Best regards, dp. --- GoldED+/W64-MSVC 1.1.5-b20180707 |
#39
|
|||
|
|||
Re: ECC
Eugene Grosbein написал(а) к Dmitry Protasoff в Mar 23 22:04:25 по местному времени:
12 марта 2023, воскресенье, в 21:21 NOVT, Dmitry Protasoff написал(а): DP> Так они и не могут воспользоваться - мало компов с ECC. Но Торвальдс явно DP> разбирается в вопросе лучше, чем "большинство разработчиков". Это не значит, что решение, оптимальное по соотношению цена/качество для Линуса, будет таковым для большинства разработчиков и что всем нужно делать только так. Потому что это не вопрос замены просто модулей памяти, это во многих случаях вопрос замены системы целиком. DP>>> А ошибка может стоить кучу денег. А может не стоить ничего или почти ничего. А может вообще не возникнуть. EM>> Ну да, у каждого ведь дома филиал банка или биржи... DP> Ну если свои данные людям не ценны - то конечно.. Но часто стоимость данных DP> сильно выше стоимости компьютера. Не очень часто, если при частнотном измерении учитывать сотни миллионов юзеров со своими комрьютерами. Eugene --- slrn/1.0.3 (FreeBSD) |
#40
|
|||
|
|||
ECC
Dmitry Protasoff написал(а) к Eugene Grosbein в Mar 23 15:19:29 по местному времени:
Нello, Eugene! Thursday March 16 2023 22:04, you wrote to me: DP>> Так они и не могут воспользоваться - мало компов с ECC. Но DP>> Торвальдс явно разбирается в вопросе лучше, чем "большинство DP>> разработчиков". EG> Это не значит, что решение, оптимальное по соотношению цена/качество EG> для Линуса, будет таковым для большинства разработчиков и что всем EG> нужно делать только так. Потому что это не вопрос замены просто EG> модулей памяти, это во многих случаях вопрос замены системы целиком. Системы целиком меняются регулярно, а у корпоративных сотрудников так вообще - обыденный процесс. Не понимаю, чем другие разработчики уже Линуса - они разработчики второго сорта, что ли? DP>>>> А ошибка может стоить кучу денег. EG> А может не стоить ничего или почти ничего. А может вообще не EG> возникнуть. Можно и в казино ходить и надеяться на удачу. EM>>> Ну да, у каждого ведь дома филиал банка или биржи... DP>> Ну если свои данные людям не ценны - то конечно.. Но часто DP>> стоимость данных сильно выше стоимости компьютера. EG> Не очень часто, если при частнотном измерении учитывать сотни EG> миллионов юзеров со своими комрьютерами. Миллион леммингов не может быть не прав! Best regards, dp. --- GoldED+/OSX 1.1.5-b20230214 |