Python 数据科学导论
Data Science Introduction with Python

仓库:leovan/data-science-introduction-with-python

简介:本项目是一套以 Python 为分析语言的数据科学入门教程。


  1. 数据科学概念
    • 数据科学
    • 数据产品
    • 跨界
  2. 数据科学工具箱
    • 数据科学常用工具
    • 数据科学之战
    • 选择那种语言
  3. 数据科学分工与流程
    • 数据科学分工
    • 数据分析和挖掘流程
1. 数据科学简介
  1. Python 相关环境配置
  2. Python 基础语法
  3. Python 数据结构
  4. Python 编码风格规范
2. Python 语言简介
  1. NumPy 简介
  2. NumPy 多维数组对象
  3. NumPy 面向数据编程
3. 数据分析基础 (上)
  1. pandas 简介
  2. pandas 数据载入和存储
  3. pandas 数据规整
4. 数据分析基础 (下)
  1. 数据可视化
  2. Matplotlib & Seaborn
  3. plotnine
  4. 基于 Web 的绘图库
5. 数据可视化
  1. 探索性分析
    • 描述性统计量
    • 常用分布
  2. 实验设计
    • 假设检验概念
    • 常用假设检验
  3. 线性回归
    • 一元线性回归
    • 多元线性回归
    • 广义线性回归
    • 最小二乘法与梯度下降
6. 统计分析基础
  1. 数据预处理
    • 数据清洗
    • 缺失值,重复值,异常值处理
    • 数据采样,数据集分割
  2. 特征变换和编码
    • 无量纲化
    • 分箱
    • 分类特征编码
  3. 特征提取,选择和监控
    • 特征提取
    • 特征选择
    • 特征监控
7. 特征工程
  1. 模型性能评估
    • 回归问题
    • 分类问题
    • 聚类问题
  2. 模型生成和选择
    • 过拟合问题
    • 评估方法
    • 偏差和方差
  3. 超参数优化
    • 搜索算法
    • 进化和群体算法
    • 贝叶斯优化
8. 模型评估 & 超参数优化
  1. 逻辑回归
  2. 决策树
9. 分类算法 (上)
  1. Bagging
  2. Boosting
  3. Stacking
10. 分类算法 (下)
  1. 时间序列
  2. ARIMA 模型
  3. 季节性分析
  4. Prophet
11. 时间序列算法
  1. K-means
  2. 层次聚类
  3. 基于密度的聚类
12. 聚类算法
  1. 可重复性研究
  2. Markdown
  3. reStructuredText & Sphinx
  4. Jupyter
  5. 版本控制
  6. 其他工具
13. 可重复性研究
  1. 人工神经网络
  2. 卷积神经网络
  3. 循环神经网络
  4. 深度学习框架
14. 深度学习算法