返回
陕西新榜样
置顶
该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理
招生热线:400-800-2178

学校地址:陕西省西安市碑林区东大街端履门云龙大厦

如何有效挖掘大数据

458 2018-12-18 09:06:33

学习笔记

随着社会进入信息技术时代,互联网中的信息以几何级数的层级倍增,这些庞大数据的后面隐藏着很多重要的信息,那么,该如何挖掘这些重要的数据呢?


  一、数据挖掘的对象:

  数据挖掘的对象可以是任何类型的数据,社会科学、自然科学、传统数据库、面向对象的数据库等等,都可以作为挖掘的对象。

  二、数据挖掘的任务:

  数据挖掘主要的目标就是从大量数据中分析出有意义的、自己需要的知识。主要包括分类、预测、时间序列、聚类分析、关联分析预测和偏差分析等等。

  1、分类:按照一定的标准划分对象类型。

  2、预测:按照历史数据建立模型,用以分析未来走向。

  3、时间序列模式:时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。

  4、聚类分析:聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。

  5、关联分析预测:关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。

  6、偏差分析:偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。

  三、数据挖掘的过程:

  数据挖掘的整个过程包括数据准备、挖掘、模式评估、巩固知识和运用知识等步骤。

  1、数据准备:在进行数据挖掘前,必然需要准备大量的数据,这些数据一般来自数据库系统,但并不能直接对其进行挖掘,所以需要先对其进行清理,将数据噪声和与挖掘主题明显无关的数据掉,然后转化为易于进行挖掘的储存形式开始准备挖掘。

  2、数据挖掘:数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。

  3、模式评估:由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反。 因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取 出更有效的知识。


文中图片素材来源网络,如有侵权请联系删除
来源:陕西新榜样
热门课程 全部课程

热门动态

申请免费试听

只要一个电话

我们为您免费回电

立即申请
刷新
图形验证
关闭
>>
拖动左边滑块完成上方拼图