1、数据分析学习笔记大数据挖掘:系统方法与实例分析steven.zhuo-健豪学习笔记(一) 数据挖掘基础1. MATLAB数据挖掘的过程(1) 定义目标(2) 准备数据(3) 探索数据1. 趋势分析2. 相互影响分析3. 变量选择(重要性排序)4. 特征进行变形5. Detect patterns(4) 建立模型模型种类:关联、回归、分类、聚类、预测、异常检测(5) 评估模型(6) 部署模型2. 数据的可视化(hist、pie、box 相互混合)3. 数据的预处理(1) 数据清洗1. 缺失值处理i. 删除法ii. 插补法(平均值插补、中值插补、回归插补(线性)、线性插值、回归插值(非线性)2.
2、噪声过滤i. 回归法:用一个函数拟合数据来光滑数据ii. 均值平滑法:对于具有序列特征的变量用临近的若干数据的均值来替代原始数据的方法iii. 离群点分析:通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法iv. 小波去噪(2) 数据集成(3) 数据规约(浓缩)i. 属性选择ii. 样本选择(4) 数据变换(归一化、标准化)4. 数据的探索(有效方法:数据可视化)(1) 分布情况探索(hist、pie、box)(2) 分布中心分析(median(中心值)、mode(频率最高)、max、mean(均值)(3) 数据的伸展性分析(极差:判断用不用归一化)(方差小:说明波动小)(4) 数据的
3、形状分析(偏度)(5) 关联分析(plotmatrix)(6) 数据的分组分析(均值、最大值、最小值、异常值)5. 假设检验(卡方检验、T检验)6. 数据回归(二) 数据挖掘算法:回归算法、关联算法、聚类算法、分类、预测、异常诊断1. 回归算法:一元回归、多元回归、逐步回归、Logistic回归(1) 一元线性:LinearModel(2) 一元非线性回归:fitnlm(3) 一元多项式回归:polyfit(4) 多元线性回归:regress(要先判断因素是否和因变量线性相关)(5) 逐步回归:stepwise(6) Logistic模型(结果只有0-1,可以用于银行信用评估)fitglm2.
4、 关联算法:Apriori算法(购物篮分析、商品关联、啤酒尿布)、FP-Growth算法、相关系数法3. 聚类(1) K-meams算法(kmeans)(万能聚类)(2) 层次聚类(Clusterdata)(层次结构图)(例子:股票分池)(3) 神经网络(train)(4) 模糊C均值聚类算法(计算隶属度、类似模糊数学)(fcm)(5) 高斯混合聚类(gmdistribution.fit)(6) 聚类过程中类别个数的确定方法1. 阈值法2. 轮廓图法4. 分类:最近邻(KNN)、贝叶斯、神经网络、逻辑斯蒂(Logistic)、判断分析、支持向量机(SVM)、决策树(1) K-近邻(Classi
5、ficationKNN,fit)(2) 贝叶斯分类、朴素贝叶斯分类(求分类概率)(NaiveBayes.fit)(3) 神经网络(4) Logistic分类(glm.)(5) 判别分析(Discriminant Analysis 简称DA)(ClassificationDiscriminant.fit)(6) 支持向量机(SVM) (超平面,解决多维问题) (svmtrain)(7) 决策树(ClassificationTree.fit) (8) 分类的评价:正确率、ROC曲线(越快收敛到1越好)5. 预测算法(1) 灰色预测(递推)(特点:对数据样本数量要求不高)(2) 马尔科夫(关键:状态转移矩阵)6. 异常诊断(outlier离群点的诊断)高级算法和分类学习机 (三)
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2