数据挖掘介绍
数据挖掘典型应用场景、概述、模式分类、挖掘流程、相关概念和开发工具。
预备知识-数学基础
行列式、矩阵及其变换、特征值分解、奇异值分解、随机事件、条件概率(贝叶斯公式)、检验、模型分析以及优化问题。
预备知识-Python基础
Python特性、基本语法、数据类型、条件判断与循环语句、文件操作以及数据采集和可视化。
数据预处理
数据预处理概述(ETL)、流程、缺失值处理、异常值处理、数值离散化、特征编码、时间数值转换以及不均衡数据处理。
特征选择与降维
特征选择概述、方法(过滤法、包装法、嵌入法和特征扩增)、降维导入以及降维方法(奇异值分解、主成分分析、LDA降维和流式学习LLE)。
有监督学习
有监督学习概念、回归算法(线性回归算法、逻辑回归与KNN算法)、贝叶斯与SVM、决策树以及集成算法。
无监督学习
无监督学习概述、K均值和K中心聚类、层次聚类和密度聚类以及关联规则。
模型评估与优化
模型评估与优化概述、优化模型、模型评估与选择以及正则化。
数据挖掘综合应用
数据挖掘综合应用,包括数据挖掘流程概述、数据读取、数据预处理、特征工程、模型选择与模型评估等。
Spark MLlib数据挖掘
Spark MLlib概述、基础统计分析、特征提取和转换、分类与回归、聚类与降维、关联规则、算法以及评估矩阵。
大数据架构和大数据治理
大数据架构概述、重要性、通用架构以及大数据治理概述、企业数据规划和治理模型、案例分析。
大数据挖掘实例
银行客户精准画像案例、提升信用卡安全案例以及城市环境质量分析挖掘案例。