返回
源码时代
置顶
该校与厚学网暂未合作,平台不保证课程的真实有效性,如有侵权等争议,请及时与厚学网联系处理
招生热线:400-656-1450

学校地址:成都高新区府城大道西段399号天府新谷1号楼

大数据4v特征是指,核心技术有哪些,可以应用在哪些方面

1394 2021-07-19 09:02:36

学习笔记

大数据4v特征有数据量大:大数据通常指超过100tb的数据量;数据种类繁多:大数据的重要特征是多种多样和复杂多变;数据处理速度快:数据从产生到使用,时间窗口很小,可以用来产生决策,时间很短;数据价值密度低:挖掘大数据的价值类似于沙里淘金,从大数据中挖掘稀疏宝贵的信息。



       大数据4v特征是指?

  大数据指的是那些超出传统数据库系统处理能力的数据。数据量大,传输速度慢,结构不适用于原始数据库系统;要想在大数据中获得价值,我们必须选择其他方法来处理它。

  在过去,数据中隐藏着很多有价值的模式和信息,提取它们需要花费大量的时间和成本。像沃尔玛和谷歌这样的企业都会为从海量数据中挖掘信息付出高昂的代价。如今,硬件、云架构和开放源码软件等各种资源使得大数据的处理更加方便和廉价。



  大数据方面核心技术有哪些?

  1.大规模数据采集。

  大数据收集,是指将来自不同来源的结构性或非结构性的大数据,进行的收集。

  资料库收集:sqoop和etl很受欢迎,mysql和oracle这两个传统的关系数据库仍然是很多企业的数据存储方式。当然,目前kettle和talend本身都是开放源码,它们还集成了大数据集成内容,可以在hdfs、hbase和主流nosq数据库之间实现数据同步和集成。

  网路资料收集:藉由网路爬虫或网站资料收集api,从网页取得非结构化或半结构化资料,并将其整合成本地资料的资料收集方法。

  档案收集:包括实时档案收集与处理技术的flume,基于elk的日志收集与增量收集等。

  2.大数据的预处理。

  大数据预处理,是指在分析数据之前,对收集到的原始数据进行的一系列操作,如“清理、填充、光滑、合并、规范、一致性检查”等,目的在于提高数据的质量,为以后的分析工作打下基础。资料的预处理主要由资料、资料整合、资料转换、资料规约四部分组成。

  资料:指使用诸如etl等工具,对遗漏资料(缺少感兴趣的属性)、噪音资料(有错误的资料或偏离预期值的资料)、不一致资料进行处理。

  资料整合:指不同资料来源的资料,整合为一个统一的资料库,储存方法,着重解决三个问题:模式匹配、资料冗余、值冲突检测及处理。

  资料转换:指对提取的资料中存在的矛盾之处,进行处理的过程。该方法还包括数据清洗,即根据业务规则对异常数据进行清洗,以保后续分析结果的准确性。

  “数据规范”:指大限度地保持数据的原始状态,大限度地精简数据量,从而获得对较小数据集的操作,包括:数据方集合、维规约、数据压缩、数字规范、概念分层等。

  3.大数据存储。

  大容量存储,是指用存储器,以数据库的形式,存储所收集的数据的过程,它有三种典型的路径:

  a.基于mpp体系结构的新型数据库集群。

  利用sharednothing体系结构,结合mpp体系结构下的分布式计算模式,利用列存储、粗粒度索引等大型数据处理技术,重点研究了行业大数据展开的数据存储方式。由于其成本低、性能好、可扩展性强等特点,被广泛应用于企业分析类应用领域。

  与传统数据库相比,其基于mpp产品的pb级数据分析能力具有明显优势。当然,mpp数据库,也成为新一代企业数据仓库的佳选择。

  b.基于hadoop的技术扩展与封装;

  以hadoop为基础的技术扩展和封装,针对传统关系型数据库难以处理的数据和场景(非结构化数据的存储和计算等等),利用hadoop的开放源码优势和相关特性(擅长处理非结构化、半结构化数据、复杂的etl流程、复杂的数据挖掘和计算模型等等),衍生出相关大数据技术的过程。

  随着技术的进步,它的应用场景将逐渐拓展,目前典型的是:通过扩展和封装hadoop来支持因特网上的大数据存储、分析,这一过程涉及到数十种nosql技术。

  c.大数据处理一体机。

  它是一款软件和硬件相结合的产品,专门用于大数据的分析处理。该系统包括一组综合服务器、存储设备、操作系统、数据库管理系统,以及预先安装并优化的用于数据查询、处理、分析的软件,具有良好的稳定性和纵向扩展性。

  4.大数据分析与挖掘。

  对杂乱无章的数据,从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面进行提取、提炼和分析的过程。

  一是视觉分析法。

  直观分析,是指运用图形的方法,清楚、有效地传达和传递信息的分析方法。它主要用于海量数据的关联分析,即借助可视化数据分析平台,对分散、异构的数据进行关联分析,生成完整的分析图表。

  其特点是简明明了,清晰直观,易于接受。

  二是数据挖掘算法。

  数据采掘算法,就是通过建立数据挖掘模型,对数据进行试探、计算、分析的方法。这是大数据分析理论的核心。

  由于数据挖掘算法的种类繁多,不同的算法基于不同的数据类型和格式会表现出不同的数据特征。但是,通常情况下,创建模型的过程是类似的,即先分析用户提供的数据,然后寻找特定类型的模式和趋势,并根据分析结果定义创建一个挖掘模型的佳参数,并将这些参数应用到整个数据集中,以提取可行模式和详细统计信息。

  三是预测性分析。

  预见性分析,是大数据分析的一个重要应用领域,它综合了许多先进的分析功能(尤其是统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等),以实现对不确定性事件的预测。

  通过分析分类器和非分类器数据中的趋势、模式和关系,用分类器和非分类器的指标预测未来的事件,为采取相应措施提供依据。

  四是语义引擎。

  语义机是指通过对已有数据进行语义化操作来改善用户的网络搜索体验。

  五是数据质量管理。

  在数据的整个生命周期的每一个阶段(规划、获取、储存、共享、维护、应用、消失等)都有可能引起各种类型的数据质量问题,为了提高数据质量而进行的一系列操作,如识别、测量、监测和预警。



  大数据可以应用在哪些方面?

  民间:例如,在医疗领域,病人数据能使医生更科学地诊断疾病,更有效地判断疾病信息;而在技术公司方面,他们将更了解用户,因为他们一直在收集用户信息,然后有针对性地推出应用;

  就农业而言:根据大量数据更能科学合理地判断种植施肥数据,科学地赋予农业功能。

  就工业而言,通过半导体和5g技术,机器人将被广泛使用,从而有效地降低人力成本,提高生产力。



 

文中图片素材来源网络,如有侵权请联系删除
来源:源码时代
热门课程 全部课程

热门动态

申请免费试听

只要一个电话

我们为您免费回电

立即申请