讲义 - Python 数据科学导论 | Data Science Introduction with Python

01 - 数据科学简介

数据科学是一门专门处理数据的科学，数据的真正价值只有在进行深度加工处理并形成产品之后才能够被体现出来。

数据科学数据产品 CRISP-DM

Python 是一种支持多种编程范型广泛使用的解释型、高级和通用的编程语言。

Python

基于 NumPy 扩展包的多维数组对象和面向数据编程。

NumPy 多维数组对象面向数据编程

基于 pandas 扩展包的数据载入、数据存储和数据规整。

pandas 数据载入数据存储数据规整

数据可视化旨在借助于图形化手段，清晰有效地传达与沟通信息，数据可视化既是一门艺术也是一门科学。

Matplotlib plotnine Plotly pyecharts

统计分析方法是广泛使用的现代科学方法，是一种比较科学、精确和客观的测评方法。

探索性分析实验设计线性回归

特征工程是指从实际业务发生产生的原始数据加工得到最终用于特定的挖掘算法的输入变量的过程。

预处理变换编码提取选择监控

对学习器的泛化性能进行评估，不仅需要有效可行的实验评估方法，还需要有衡量模型泛化能力的评价标准。

性能评估模型生成模型选择超参数优化

逻辑回归和决策树是用于分类任务的经典监督学习算法，同时其具有较好的解释性。

逻辑回归决策树

集成学习算法的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。

集成学习 Bagging Boosting Stacking

聚类算法是一种把相似的对象分成不同的组别或者更多的子集的非监督式学习算法。

K-means 层次聚类基于密度的聚类

时间序列分析的目的是挖掘时间序列中隐含模式，并借此对此序列进行评估以及对后续趋势进行预测。

时间序列 ARIMA 季节性 Prophet

深度学习是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。

人工神经网络卷积神经网络循环神经网络

可重复性研究的目标是将文字说明与分析和数据联系起来，以便重新创建、更好地理解和验证逻辑。

Markdown Jupyter quarto