你们好,最近小元发现有诸多的小伙伴们对于大数据专业学什么,大数据学习这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往下看看吧。
1、 一、Hadoop
2、 可以说hadoop几乎是大数据的代名词。不管你是否同意,hadoop已经是大多数企业的大数据标准。感谢hadoop生态系统,从现在开始,任何技术都无法撼动Hadoop的地位。
3、 这首曲子可以根据以下内容学习:
4、 1,Hadoop背景。
5、 2.Hadoop在大数据和云计算中的地位和关系。
6、 3.国内外Hadoop应用案例介绍。
7、 4.Hadoop在中国的就业形势分析及课程大纲介绍。
8、 5.分布式系统概述
9、 6.Hadoop生态系统及其组件介绍。
10、 二、分布式文件系统HDFS
11、 HDFS的全称是Hadoop分布式文件系统,是一个高度容错的系统,适合部署在廉价的机器上,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
12、 为了达到流读文件系统数据的目的,HDFS放宽了一些POSIX的限制。
13、 1.分布式文件系统HDFS简介。
14、 2.HDFS系统组成介绍
15、 3.HDFS组件的详细说明
16、 4、拷贝存储策略和路由规则
17、 5、NameNode Federation
18、 6、命令行接口
19、 7、Java接口
20、 8、客户端与HDFS的数据流讲解
21、 9、HDFS的可用性(HA)
22、 三、初级MapReduce
23、 这是你成为Hadoop开发人员的基础课程。
24、 MapReduce提供了以下的主要功能:
25、 1)数据划分和计算任务调度:
26、 2)数据/代码互定位:
27、 3)系统优化:
28、 4)出错检测和恢复:
29、 这种编程模型主要用于大规模数据集(大于1TB)的并行运算。
30、 1、如何理解map、reduce计算模型
31、 2、剖析伪分布式下MapReduce作业的执行过程
32、 3、Yarn模型
33、 4、序列化
34、 5、MapReduce的类型与格式
35、 6、MapReduce开发环境搭建
36、 7、MapReduce应用开发
37、 8、熟悉MapReduce算法原理
38、 四、高级MapReduce
39、 这一块主要是高级Hadoop开发的技能,都是MapReduce为什么我要分开写呢?因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。
40、 1、使用压缩分隔减少输入规模
41、 2、利用Combiner减少中间数据
42、 3、编写Partitioner优化负载均衡
43、 4、如何自定义排序规则
44、 5、如何自定义分组规则
45、 6、MapReduce优化
46、 五、Hadoop集群与管理
47、 这里会涉及到一些比较高级的数据库管理知识,乍看之下都是操作性的内容,但是做成容易,做好非常难。
48、 1、Hadoop集群的搭建2、Hadoop集群的监控3、Hadoop集群的管理4、集群下运行MapReduce程序
49、 六、ZooKeeper基础知识
50、 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
51、 七、Hbase基础知识
52、 Hbase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC
53、 Server上搭建起大规模结构化存储集群。
54、 与FUJITSU Cliq等商用大数据产品不同,Hbase是Google Bigtable的开源实现,类似Google
55、 Bigtable利用GFS作为其文件存储系统,Hbase利用Hadoop
56、 HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,Hbase同样利用Hadoop
57、 MapReduce来处理Hbase中的海量数据;Google Bigtable利用Chubby作为协同服务,Hbase利用Zookeeper作为对应。
58、 1、Hbase定义2、Hbase与RDBMS的对比3、数据模型4、系统架构5、Hbase上的MapReduce 6、表的设计
59、 八、Hbase集群及其管理
60、 1、集群的搭建过程2、集群的监控3、集群的管理
61、 十、Pig基础知识
62、 Pig是进行Hadoop计算的另一种框架,是一个高级过程语言,适合于使用Hadoop 和MapReduce
63、 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL 的查询,Pig 可以简化Hadoop 的使用。
64、 1、Pig概述2、安装Pig 3、使用Pig完成手机流量统计业务
65、 十一、Hive
66、 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
67、 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。
68、 1、数据仓库基础知识2、Hive定义3、Hive体系结构简介4、Hive集群5、客户端简介6、HiveQL定义
69、 7、HiveQL与SQL的比较8、数据类型9、表与表分区概念10、表的操作与CLI客户端11、数据导入与CLI客户端12、查询数据与CLI客户端
70、 13、数据的连接与CLI客户端14、用户自定义函数(UDF)
71、 十二、Sqoop
72、 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql.)间进行数据的传递,可以将一个关系型数据库(例如
73、 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
74、 1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中3、使用Sqoop把数据从HDFS导出到MySQL中
75、 十三、Storm
76、 Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。
77、 Storm也可被用于“连续计算”(continuous
78、 computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。
79、 1、Storm基础知识:包括Storm的基本概念和Storm应用场景,体系结构与基本原理,Storm和Hadoop的对比
80、 2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题3、Storm组件介绍: spout、bolt、stream groupings等
81、 4、Storm消息可靠性:消息失败的重发5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm编程实战
以上就是大数据学习这篇文章的一些介绍,希望对大家有所帮助。
-
卸载软件哪个好用 知乎 卸载软件哪个好
今天来聊聊关于卸载软件哪个好用,知乎,卸载软件哪个好的文章,现在就为大家来简单介绍下卸载软件哪个好用,知乎,卸载软件哪个好,希望对…
-
小米米家果蔬清洗机现已在小米有品上架
据网友反馈,小米米家果蔬清洗机现已在小米有品上架,将于9月11日10点开始预约,9月13日10点开售,众筹价为449元。 米家果蔬清洗机搭载变…
-
学生如何与父母沟通交流 学生如何与父
今天来聊聊关于学生如何与父母沟通交流,学生如何与父母沟通的文章,现在就为大家来简单介绍下学生如何与父母沟通交流,学生如何与父母沟通…
-
辣椒炒火腿肠怎么炒(辣椒炒火腿肠)
你们好,最近小元发现有诸多的小伙伴们对于辣椒炒火腿肠怎么炒,辣椒炒火腿肠这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往下看…
-
ask是什么意思 asr是什么意思
今天来聊聊关于ask是什么意思,asr是什么意思的文章,现在就为大家来简单介绍下ask是什么意思,asr是什么意思,希望对各位小伙伴们有所帮助…