数据集:这是一个分类问题的数据集,主要记录了印第安人最近五年是否患有糖尿病的医疗数据(数据来源UCI:https://archive.ics.uci.edu/ml/index.php )
介绍:结合书籍资料和网络,运用Colab来对谷歌云端的数据集进行读取和分析(数据导入、数据理解、数据可视化、数据预处理、数据特征选定、评估算法),后续还在慢慢更新(适合资料科学DS或者ML的新手,参考学习书籍:机器学习(西瓜书)、机器学习Python实践)。
已完成部分:
1.数据导入(从谷歌云端导入到colab
2.数据理解(简单的查看数据、查看数据维度、属性、分布状况)
3.数据可视化(直方图、密度图、线箱图、相关矩阵图、散点矩阵图)
4.数据预处理(调整数据尺度、正态化、标准化、二值数据)
5.数据特征选定(单变量特征选定、递归特征消除、主成分分析)
6.评估算法(分离训练数据集和评估数据集、K折交叉验证分离、弃一交叉验证分离、重复随机分离评估集与训练数据集)
7.算法评估矩阵(分类准确度、对数损失函数、AUC图、Confusion Matrix)
待续
4.23 test
4,23 test2
-
Notifications
You must be signed in to change notification settings - Fork 0
rezzsl/Indians-Diabetes-DS
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published