tracker added

ikigai-aa · ikigai-aa · commit 28f56a6bc1ef · 2023-05-20T17:36:11.000+05:30
diff --git a/dvc.lock b/dvc.lock
@@ -0,0 +1,60 @@
+schema: '2.0'
+stages:
+  load_data:
+    cmd: python src\load_data.py --config=params.yaml
+    deps:
+    - path: data_given/WineQT.csv
+      md5: b03c22cbdd89823c0ec32044c4826343
+      size: 78057
+    - path: src/get_data.py
+      md5: 02093608f13041fb074ffd78f04c92e4
+      size: 719
+    - path: src/load_data.py
+      md5: 0d5a941034eed3cc6894ccdd4cbd0fcc
+      size: 691
+    outs:
+    - path: data/raw/WineQT.csv
+      md5: 928a3899cf30e454051988a983c38c6e
+      size: 72970
+  split_data:
+    cmd: python src/split_data.py --config=params.yaml
+    deps:
+    - path: data/raw/WineQT.csv
+      md5: 928a3899cf30e454051988a983c38c6e
+      size: 72970
+    - path: src/split_data.py
+      md5: 85a3cc19596dbbf90162642115c60acc
+      size: 1092
+    outs:
+    - path: data/processed/test_WineQT.csv
+      md5: 0e9af019b6dd8b86b4fd1fea505a6888
+      size: 14805
+    - path: data/processed/train_WineQT.csv
+      md5: 727b5be0ccb3090ab1d49b02aea7a6e3
+      size: 58315
+  train_and_evaluate:
+    cmd: python src/train_and_evaluate.py --config=params.yaml
+    deps:
+    - path: data/processed/test_WineQT.csv
+      md5: 0e9af019b6dd8b86b4fd1fea505a6888
+      size: 14805
+    - path: data/processed/train_WineQT.csv
+      md5: 727b5be0ccb3090ab1d49b02aea7a6e3
+      size: 58315
+    - path: src/train_and_evaluate.py
+      md5: bfcea7416270c8a6b45ea2e378624d71
+      size: 2657
+    params:
+      params.yaml:
+        estimators.ElasticNet.params.alpha: 0.9
+        estimators.ElasticNet.params.l1_ratio: 0.4
+    outs:
+    - path: report/params.json
+      md5: a4aab0167612f21a6085dd05cfafdbf6
+      size: 44
+    - path: report/scores.json
+      md5: 05a6db037c56b81bf051acef60f76ffe
+      size: 100
+    - path: saved_models/model.joblib
+      md5: 33d8e2b9814ee7d82f9f5621e2fdbfdc
+      size: 1239
diff --git a/dvc.yaml b/dvc.yaml
@@ -16,5 +16,21 @@ stages:
     outs:
     - data/processed/train_WineQT.csv
     - data/processed/test_WineQT.csv
-
+  
+  train_and_evaluate:
+    cmd: python src/train_and_evaluate.py --config=params.yaml
+    deps:
+    - data/processed/train_WineQT.csv
+    - data/processed/test_WineQT.csv 
+    - src/train_and_evaluate.py
+    params:
+    - estimators.ElasticNet.params.alpha
+    - estimators.ElasticNet.params.l1_ratio
+    metrics:
+    - report/scores.json:
+        cache: false
+    - report/params.json:
+        cache: false
+    outs:
+    - saved_models/model.joblib
 
diff --git a/params.yaml b/params.yaml
@@ -1,7 +1,7 @@
 base:
   project: winequality-project
   random_state: 42
-  target_col: TARGET
+  target_col: quality
 
 data_source:
   s3_source: data_given/WineQT.csv
diff --git a/report/params.json b/report/params.json
@@ -0,0 +1,4 @@
+{
+    "alpha": 0.9,
+    "l1_ratio": 0.4
+}
diff --git a/report/scores.json b/report/scores.json
@@ -0,0 +1,5 @@
+{
+    "rmse": 0.7191050648744693,
+    "mae": 0.5907059594776091,
+    "r2": 0.07073280314369634
+}
diff --git a/saved_models/.gitignore b/saved_models/.gitignore
@@ -0,0 +1 @@
+/model.joblib
diff --git a/src/train_and_evaluate.py b/src/train_and_evaluate.py
@@ -4,6 +4,7 @@
 
 import os
 import pandas as pd
+import numpy as np
 from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import ElasticNet
@@ -30,25 +31,56 @@ def train_and_evaluate(config_path):
     alpha=config["estimators"]["ElasticNet"]["params"]["alpha"]
     l1_ratio=config["estimators"]["ElasticNet"]["params"]["l1_ratio"]
     target=config["base"]["target_col"]
-    
+
     train= pd.read_csv(train_data_path, sep=",")
     test= pd.read_csv(test_data_path, sep=",")
-    
+
     train_y= train[target]
     test_y= test[target]
-    
+
     train_x= train.drop(target, axis=1)
     test_x= test.drop(target, axis=1)
-    
+
     lr= ElasticNet(
         alpha=alpha,
         l1_ratio=l1_ratio,
         random_state=random_state)
-    
+
     lr.fit(train_x, train_y)
     predicted_qualities= lr.predict(test_x)
-    
+
     (rmse, mae, r2) = eval_metrics(test_y, predicted_qualities)
+
+    print("Elasticnet model (alpha=%f, l1_ratio=%f):" % (alpha, l1_ratio))
+    print(f"  RMSE: {rmse}")
+    print(f"  MAE: {mae}")
+    print(f"  R2: {r2}")
+
+    #####################################################
+    scores_file = config["reports"]["scores"]
+    params_file = config["reports"]["params"]
+
+    with open(scores_file, "w") as f:
+        scores = {
+            "rmse": rmse,
+            "mae": mae,
+            "r2": r2
+        }
+        json.dump(scores, f, indent=4)
+
+    with open(params_file, "w") as f:
+        params = {
+            "alpha": alpha,
+            "l1_ratio": l1_ratio,
+        }
+        json.dump(params, f, indent=4)
+    #####################################################
+
+
+    os.makedirs(model_dir, exist_ok=True)
+    model_path = os.path.join(model_dir, "model.joblib")
+
+    joblib.dump(lr, model_path)