Ошибка Prometheus "found healthy block"
Как-то Prometheus, запущенный в Kubernetes, свалился вот с такой ошибкой:
caller=repair.go:39 component=tsdb msg="found healthy block"
Перезапуск POD’ов помогал, но через некоторое время он снова падал с такими же симптомами.
Целый день потратил на то, чтобы понять, в чём дело - исследовал базу, пытался найти в ней ошибки и починить PV. Однако решение оказалось тривиальным - случайно глянул на график использования оперативной памяти, который показал, что она закончилась. И после увеличения memory limits POD с Prometheus снова работал.