2021-01-01から1年間の記事一覧

EventBridgeを介してDatadogとIncident Managerを連携させてみる

背景 Datadogで発生したアラートをもとにオンコールしたい場合、PagerDutyを使うのが一番簡単ですが、Incident Managerを使うともっと安価にオンコールが実現できるのではということで、連携してみました。 連携の概要 Datadog → EventBridge → Incident Man…

Locustでリクエストfail時のログ(日時とか)を出力する方法

負荷試験ツールのLocustでリクエストがfailするとFailuresタブから情報が見れるのですが、いつfailしたかが分かりません。 locustにはevent hook機能があり、以下のように書けばどんなリクエストがいつfailしたか標準出力されます。 from locust import even…

EKS Cluster Autoscalerとログ保存用Daemonsetの組み合わせでスケールイン時にログが失われる問題

EKS Cluster Autoscalerとログ保存用Daemonsetの組み合わせでNodeスケールイン時にログが失われる問題に遭遇した。 前提 Cluster Autoscaler v1.17.4を使用 fluent/fluentd-kubernetes-daemonsetを使用して、毎分S3にログを保存 現象 Cluster AutoscalerがNo…

定期的にPodを再作成する方法

背景 簡単に定期的にPodを再作成する方法を紹介します。 なんで定期的にPodを再作成したくなるかというと、例えば以下のような理由が思いつきます。 メモリリークしていてずっと稼働させるのはまずい DBを負荷に応じてオートスケールさせていて、スケールア…

KubernetesのNodeのディスク使用率がどんどん上がっていく件

背景 Kubernetes(EKS)のNodeのディスク使用率がどんどん上がっていっているので原因を調べた 調査 $ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 1.9G 0 1.9G 0% /dev tmpfs 1.9G 0 1.9G 0% /dev/shm tmpfs 1.9G 1.3M 1.9G 1% /run tmpfs 1.…

EKSコンソールからnodeやworkload情報を見れるようにする

AWSコンソールのEKS画面で Your current user or role does not have access to Kubernetes objects on this EKS cluster This may be due to the current user or role not having Kubernetes RBAC permissions to describe cluster resources or not havin…

エンジニアキャリアラダーを作成する際に参考になるサイト

海外の公開されているキャリアラダー集 www.swyx.io これが参考になった。 まずゼロからキャリアラダーを作成するのは非常に難易度が高い。どの等級にどんな役割を期待するのかを定義しそれを言語化していく作業は並大抵のことではない。 そこですでに公開さ…