上海交大教育集团
招生热线:400-656-1450

学校地址:上海市徐汇区番禺路951B号-A座1楼IT研究院

大数据领域支持Java的主流开源工具

  没有java,甚至不会有大数据的大发展,hadoop本身就是用java编写的。当你需要在运行mapreduce的服务器集群上发布新功能时,你需要进行动态的部署,而这正是java所擅长的。

  大数据领域支持java的主流开源工具:

  1. hdfs

  hdfs是hadoop应用程序中主要的分布式储存系统, hdfs集群包含了一个namenode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的datanode(数据节点,可以有很多)。hdfs针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,hdfs优化的则是对小批量大型文件的访问和存储。

  2. mapreduce

  hadoop mapreduce是一个软件框架,用以轻松编写处理海量(tb级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

  3. hbase

  apache hbase是hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器

  集群上的大型表格做出优化——上百亿行,上千万列。其核心是google bigtable论文的开源实现,分布式列式存储。就像bigtable利用

  gfs(google file system)提供的分布式数据存储一样,它是apache hadoop在hdfs基础上提供的一个类bigatable。

  4. cassandra

  apache cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。

  在横跨数据中心的复制中,cassandra同类 佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,cassandra的数据模型提供了方便的二级索引(column indexe)。

  5. hive

  apache hive是hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在hadoop兼容系统中的大型数据集分析。hive提供完整的sql查询功能——hiveql语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,hiveql还允许传统的map/reduce程序员使用自己定制的mapper和reducer。

  6. pig

  apache pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的语言以及评估这些应用的基础设施。pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。pig的基础设施层包含了产生map-reduce任务的编译器。pig的语言层当前包含了一个原生语言——pig latin,开发的初衷是易于编程和保 证可扩展性。

  7. chukwa

  apache chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于hdfs和map/reduce框架之上,继承了hadoop的可扩展性和稳定性。chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保 证数据的使用达到 佳效果。

  8. ambari

  apache ambari是一个基于web的工具,用于配置、管理和监视apache hadoop集群,支持hadoop hdfs,、hadoop mapreduce、hive、hcatalog,、hbase、zookeeper、oozie、pig和sqoop。ambari同样还提供了集群状况仪表盘,比如heatmaps和查看mapreduce、pig、hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

  9. zookeeper

  apache zookeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、命名服务、分布式同步、组服务等。

  zookeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能、功能稳定的系统提供给用户。

  10. sqoop

  sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入hadoop的hdfs中,也可以将hdfs中数据导入关系型数据库中。

  11. oozie

  apache oozie是一个可扩展、可靠及可扩充的工作流调度系统,用以管理hadoop作业。oozie workflow作业是活动的directed acyclical

  graphs(dags)。oozie coordinator作业是由周期性的oozie workflow作业触发,周期一般决定于时间(频率)和数据可用性。oozie与

  余下的hadoop堆栈结合使用,开箱即用的支持多种类型hadoop作业(比如:java map-reduce、streaming map-reduce、pig、 hive、sqoop和distcp)以及其它系统作业(比如java程序和shell脚本)。

  12. mahout

  apache mahout是个可扩展的机器学习和数据挖掘库,当前mahout支持主要的4个用例:

  挖掘:搜集用户动作并以此给用户可能喜欢的事物。

  聚集:收集文件并进行相关文件分组。

  分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。

  频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

  13. hcatalog

  apache hcatalog是hadoop建立数据的映射表和存储管理服务,它包括:

  提供一个共享模式和数据类型机制。

  提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。

  为类似pig、mapreduce及hive这些数据处理工具提供互操作性。


文中图片素材来源网络,如有侵权请联系删除
申请试听
为您选课
培训课时
32学时,45分钟/学时,8学时/天,4天
培训费用
5000元
培训讲师

长期使用CATIA软件的资 深培训师,曾给国内多家世界500强企业设计人员进行了成功的培训。

证书
学员可以根据自己需要考取多项认证资格证书: 上海交大教育集团结业证书;达索工程师认证证书
培训大纲
运动仿 真运动仿 真概述运动仿 真的工作界面
运动仿 真模块的参数设置运动仿 真基础运动仿 真流程
进入运动仿 真模块新建运动仿 真文件定义连杆(Links)
定义运动副定义驱动定义解算方案并求解
生成动画连杆连杆概述
连杆的质量属性定义连杆的材料初始速度
初始平动速率初始转动速度主模型尺寸
运动副与约束运动副与自由度旋转副
滑动副柱面副螺旋副
万向节球面副平面副
点在线上副线在线上副点在面上副
其他运动副简介传动副齿轮副
齿轮齿条副线缆副2-3传动副
范例——齿轮系运动仿 真连接器弹簧
阻尼器衬套3D接触
2D接触范例1——微型联轴器仿 真范例2——弹性碰撞仿 真
范例3——滚子反弹仿 真驱动与函数驱动与函数概述
简谐驱动函数驱动铰接运动驱动
电子表格驱动分析与测量分析结果输出
智能点、标记与传感器干涉、测量和跟踪范例1——弹簧悬挂机构仿 真
范例2——曲柄齿轮齿条机构仿 真
申请免费试听
全国招生热线