otel-coll-daemonset.yml

mode: daemonset
presets:
  logsCollection:
    enabled: true
    includeCollectorLogs: true
  kubernetesAttributes:
    enabled: true

resources:
  limits:
    cpu: 3000m
    memory: 3Gi

extraEnvs:
  - name: MIMIR_USER
    valueFrom:
      secretKeyRef:
        name: grafana-cloud
        key: mimirUser
  - name: MIMIR_PASS
    valueFrom:
      secretKeyRef:
        name: grafana-cloud
        key: mimirPass
  - name: LOKI_USER
    valueFrom:
      secretKeyRef:
        name: grafana-cloud
        key: lokiUser
  - name: LOKI_PASS
    valueFrom:
      secretKeyRef:
        name: grafana-cloud
        key: lokiPass
  - name: KUBE_NODE_NAME
    valueFrom:
      fieldRef:
        fieldPath: spec.nodeName

clusterRole:
  rules:
  - apiGroups:
    - ''
    resources:
    - 'services'
    - 'events'
    - 'namespaces'
    - 'namespaces/status'
    - 'nodes'
    - 'nodes/spec'
    - 'pods'
    - 'pods/status'
    - 'replicationcontrollers'
    - 'replicationcontrollers/status'
    - 'resourcequotas'
    - 'nodes/proxy'
    - 'endpoints'
    verbs:
    - 'get'
    - 'list'
    - 'watch'
  - apiGroups:
    - apps
    resources:
    - 'daemonsets'
    - 'deployments'
    - 'replicasets'
    - 'statefulsets'
    verbs:
    - 'get'
    - 'list'
    - 'watch'
  - apiGroups:
    - extensions
    resources:
    - daemonsets
    - deployments
    - replicasets
    verbs:
    - get
    - list
    - watch
  - apiGroups:
    - batch
    resources:
    - jobs
    - cronjobs
    verbs:
    - get
    - list
    - watch
  - apiGroups:
    - autoscaling
    resources:
    - horizontalpodautoscalers
    verbs:
    - get
    - list
    - watch
  - apiGroups:
    - 'events.k8s.io'
    resources:
    - events
    verbs:
    - watch
  - nonResourceURLs:
    - /metrics
    verbs:
    - get


config:
  receivers:
    filelog:
      include:
        - /var/log/pods/*/*/*.log
      start_at: beginning
      include_file_path: true
      include_file_name: false
      operators:
        # Find out which format is used by kubernetes
        - type: router
          id: get-format
          routes:
            - output: parser-docker
              expr: 'body matches "^\\{"'
            - output: parser-crio
              expr: 'body matches "^[^ Z]+ "'
            - output: parser-containerd
              expr: 'body matches "^[^ Z]+Z"'
        # Parse CRI-O format
        - type: regex_parser
          id: parser-crio
          regex: '^(?P<time>[^ Z]+) (?P<stream>stdout|stderr) (?P<logtag>[^ ]*) ?(?P<log>.*)$'
          output: extract_metadata_from_filepath
          timestamp:
            parse_from: attributes.time
            layout_type: gotime
            layout: '2006-01-02T15:04:05.999999999Z07:00'
        # Parse CRI-Containerd format
        - type: regex_parser
          id: parser-containerd
          regex: '^(?P<time>[^ ^Z]+Z) (?P<stream>stdout|stderr) (?P<logtag>[^ ]*) ?(?P<log>.*)$'
          output: extract_metadata_from_filepath
          timestamp:
            parse_from: attributes.time
            layout: '%Y-%m-%dT%H:%M:%S.%LZ'
        # Parse Docker format
        - type: json_parser
          id: parser-docker
          output: extract_metadata_from_filepath
          timestamp:
            parse_from: attributes.time
            layout: '%Y-%m-%dT%H:%M:%S.%LZ'
        - type: move
          from: attributes.log
          to: body
        # Extract metadata from file path
        - type: regex_parser
          id: extract_metadata_from_filepath
          regex: '^.*\/(?P<namespace>[^_]+)_(?P<pod_name>[^_]+)_(?P<uid>[a-f0-9\-]{36})\/(?P<container_name>[^\._]+)\/(?P<restart_count>\d+)\.log$'
          parse_from: attributes["log.file.path"]
          cache:
            size: 128  # default maximum amount of Pods per Node is 110
        # Rename attributes
        - type: move
          from: attributes["log.file.path"]
          to: resource["filename"]
        - type: move
          from: attributes.container_name
          to: resource["container"]
        - type: move
          from: attributes.namespace
          to: resource["namespace"]
        - type: move
          from: attributes.pod_name
          to: resource["pod"]
        - type: add
          field: resource["cluster"]
          value: "bdrck-sbx-cluster" # Set your cluster name here


    prometheus:
      config:
        scrape_configs:
          - job_name: opentelemetry-collector
            scrape_interval: 15s
            static_configs:
              - targets:
                  - ${MY_POD_IP}:8888
          - job_name: integrations/node_exporter
            kubernetes_sd_configs:
              - namespaces:
                  names:
                    - observability
                role: pod
                selectors:
                  - role: pod
                    # only scrape data from pods running on the same node as collector
                    field: "spec.nodeName=$KUBE_NODE_NAME"
            relabel_configs:
                - action: keep
                  regex: prometheus-node-exporter.*
                  source_labels:
                    - __meta_kubernetes_pod_label_app_kubernetes_io_name
                - action: replace
                  source_labels:
                    - __meta_kubernetes_pod_node_name
                  target_label: instance
                - action: replace
                  source_labels:
                    - __meta_kubernetes_namespace
                  target_label: namespace
            metric_relabel_configs:
              - source_labels: [__name__]
                action: keep
                regex: 'kubelet_running_containers|go_goroutines|kubelet_runtime_operations_errors_total|cluster:namespace:pod_cpu:active:kube_pod_container_resource_limits|namespace_memory:kube_pod_container_resource_limits:sum|kubelet_volume_stats_inodes_used|kubelet_certificate_manager_server_ttl_seconds|namespace_workload_pod:kube_pod_owner:relabel|kubelet_node_config_error|kube_daemonset_status_number_misscheduled|kube_pod_container_resource_requests|namespace_cpu:kube_pod_container_resource_limits:sum|container_memory_working_set_bytes|container_fs_reads_bytes_total|kube_node_status_condition|namespace_cpu:kube_pod_container_resource_requests:sum|kubelet_server_expiration_renew_errors|container_fs_writes_total|kube_horizontalpodautoscaler_status_desired_replicas|node_filesystem_avail_bytes|kube_pod_status_reason|node_filesystem_size_bytes|kube_deployment_spec_replicas|kube_statefulset_metadata_generation|namespace_workload_pod|storage_operation_duration_seconds_count|kubelet_certificate_manager_client_expiration_renew_errors|kube_pod_container_resource_limits|kube_statefulset_status_replicas_updated|node_namespace_pod_container:container_memory_rss|kube_statefulset_status_observed_generation|node_namespace_pod_container:container_cpu_usage_seconds_total:sum_irate|kubelet_pleg_relist_interval_seconds_bucket|kube_job_status_start_time|kube_deployment_status_observed_generation|kubelet_pod_worker_duration_seconds_bucket|container_memory_cache|kube_resourcequota|kube_horizontalpodautoscaler_spec_min_replicas|namespace_memory:kube_pod_container_resource_requests:sum|kube_persistentvolumeclaim_resource_requests_storage_bytes|kube_daemonset_status_number_available|kube_job_failed|storage_operation_errors_total|cluster:namespace:pod_memory:active:kube_pod_container_resource_limits|container_fs_writes_bytes_total|kube_statefulset_replicas|kube_replicaset_owner|container_network_receive_bytes_total|volume_manager_total_volumes|kube_horizontalpodautoscaler_spec_max_replicas|kube_daemonset_status_desired_number_scheduled|kube_pod_container_status_waiting_reason|process_cpu_seconds_total|kube_node_status_allocatable|kube_deployment_status_replicas_available|kube_daemonset_status_updated_number_scheduled|container_network_receive_packets_total|container_memory_rss|container_cpu_usage_seconds_total|kube_namespace_status_phase|cluster:namespace:pod_memory:active:kube_pod_container_resource_requests|kubelet_volume_stats_available_bytes|kube_deployment_status_replicas_updated|kubelet_running_container_count|kube_node_info|container_network_transmit_packets_dropped_total|kubelet_certificate_manager_client_ttl_seconds|kube_pod_owner|kubelet_volume_stats_inodes|kubelet_runtime_operations_total|container_cpu_cfs_throttled_periods_total|kubelet_cgroup_manager_duration_seconds_bucket|kubelet_running_pod_count|container_network_transmit_packets_total|kubelet_node_name|kube_daemonset_status_current_number_scheduled|kube_statefulset_status_replicas_ready|cluster:namespace:pod_cpu:active:kube_pod_container_resource_requests|kubelet_volume_stats_capacity_bytes|kube_horizontalpodautoscaler_status_current_replicas|node_quantile:kubelet_pleg_relist_duration_seconds:histogram_quantile|kube_node_spec_taint|kubelet_pleg_relist_duration_seconds_bucket|kube_pod_status_phase|container_cpu_cfs_periods_total|kube_deployment_metadata_generation|node_namespace_pod_container:container_memory_cache|kube_statefulset_status_current_revision|kubelet_pleg_relist_duration_seconds_count|container_fs_reads_total|kube_statefulset_status_update_revision|container_network_receive_packets_dropped_total|kube_pod_info|kubelet_running_pods|process_resident_memory_bytes|kubelet_pod_worker_duration_seconds_count|kubelet_pod_start_duration_seconds_count|kubelet_cgroup_manager_duration_seconds_count|kube_node_status_capacity|container_network_transmit_bytes_total|rest_client_requests_total|kubernetes_build_info|machine_memory_bytes|kube_statefulset_status_replicas|container_memory_swap|kube_job_status_active|kubelet_pod_start_duration_seconds_bucket|node_namespace_pod_container:container_memory_working_set_bytes|node_namespace_pod_container:container_memory_swap|kube_namespace_status_phase|container_cpu_usage_seconds_total|kube_pod_status_phase|kube_pod_start_time|kube_pod_container_status_restarts_total|kube_pod_container_info|kube_pod_container_status_waiting_reason|kube_daemonset.*|kube_replicaset.*|kube_statefulset.*|kube_job.*|kube_node.*|node_namespace_pod_container:container_cpu_usage_seconds_total:sum_irate|cluster:namespace:pod_cpu:active:kube_pod_container_resource_requests|namespace_cpu:kube_pod_container_resource_requests:sum|node_cpu.*|node_memory.*|node_filesystem.*'
          - job_name: "kubernetes-pods"
            kubernetes_sd_configs:
              - role: pod
                selectors:
                  - role: pod
                    # only scrape data from pods running on the same node as collector
                    field: "spec.nodeName=$KUBE_NODE_NAME"
            metric_relabel_configs:
              - regex: autonomic_ai_(.+)_access
                action: labeldrop
              - regex: 'autonomic_ai_(team|app|component_full_name|tracing|managed_by_kapp|business_service|call_.+|allow_.+|hydra_.+)'
                action: labeldrop
              - regex: pod_template_hash
                action: labeldrop
              - regex: '(kafka|sidecar_istio_io_inject|kapp_k14s_io_association|app_kubernetes_io_managed_by|app_kubernetes_io_name|app_kubernetes_io_instance|app_kubernetes_io_version|app_kubernetes_io_component|heritage)'
                action: labeldrop
              - regex: '(beta_|)kubernetes_io_(arch|os)'
                action: labeldrop
              - regex: '(failure_domain_beta|topology)_kubernetes_io_region'
                action: labeldrop
              - regex: '(assets|chart|release|component|baseChart|coordinator|created_by|dns|groups|hasDNS|updatedAt|updatedBy)'
                action: labeldrop
            relabel_configs:
              - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
                action: keep
                regex: true
              - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
                action: replace
                target_label: __metrics_path__
                regex: (.+)
              - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
                action: replace
                regex: ([^:]+)(?::\d+)?;(\d+)
                replacement: $${1}:$${2}
                target_label: __address__
              - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scheme]
                action: replace
                target_label: __scheme__
                regex: (https?)
              - action: labelmap
                regex: __meta_kubernetes_pod_annotation_prometheus_io_param_(.+)
                replacement: __param_$$1
              - action: labelmap
                regex: __meta_kubernetes_pod_label_(.+)
              - source_labels: [__meta_kubernetes_namespace]
                action: replace
                target_label: kubernetes_namespace
              - source_labels: [__meta_kubernetes_pod_name]
                action: replace
                target_label: kubernetes_pod_name

  extensions:
    basicauth/metrics:
      client_auth:
        username: "${MIMIR_USER}"
        password: "${MIMIR_PASS}"

    basicauth/logs:
      client_auth:
        username: "${LOKI_USER}"
        password: "${LOKI_PASS}"

    zpages:
      endpoint: 0.0.0.0:55679

  exporters:
    prometheusremotewrite:
      external_labels:
        cluster: 'bdrck-sbx-cluster'
      endpoint: "https://prometheus-us-central1.grafana.net/api/prom/push"
      auth:
        authenticator: basicauth/metrics
      resource_to_telemetry_conversion:
        enabled: true
      target_info:
        enabled: true

    loki:
      endpoint: "https://logs-prod-017.grafana.net/loki/api/v1/push"
      auth:
        authenticator: basicauth/logs

    logging:
      verbosity: detailed

  processors:
    memory_limiter:
      check_interval: 1s
      limit_percentage: 75
      spike_limit_percentage: 50

    batch:
      send_batch_size: 10000
      timeout: 10s

    resourcedetection:
      detectors: [env, gcp]

    resource/logs:
      attributes:
      - action: insert
        key: loki.format
        value: raw
      - action: insert
        key: loki.resource.labels
        value: pod, namespace, container, cluster, filename
    

  service:
    extensions: [ basicauth/metrics, basicauth/logs, health_check, memory_ballast, zpages ]
    pipelines:
      metrics:
        receivers: [otlp, prometheus]
        processors: [memory_limiter, batch, k8sattributes, resourcedetection]
        exporters: [prometheusremotewrite]
      logs:
        receivers: [filelog]
        processors: [batch, resource/logs, k8sattributes]
        exporters: [loki]