大数据开发怎么学习
发布网友
发布时间:2022-04-21 00:09
我来回答
共6个回答
热心网友
时间:2022-04-09 14:43
按照下面五个阶段开始学习,循序渐进!
阶段一、大数据基础——java语言基础方面
(1)Java语言基础
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
需要大数据学习教程,关注我主页有资料
(2) HTML、CSS与JavaScript
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用
(3)JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
阶段二、 Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
阶段三、 分布式计算框架和Spark&Strom生态体系
(1)分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(www.sina.com.cn)
(2)storm技术架构体系
Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、实战一:日志告警系统项目、实战二:猜你喜欢推荐系统实战
阶段四、 大数据项目实战(一线公司真实项目)
数据获取、数据处理、数据分析、数据展现、数据应用
阶段五、 大数据分析 —AI(人工智能)
Data Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习
1、Python机器学习2、图像识别&神经网络、自然语言处理&社交网络处理、实战项目:户外设备识别分析
以上就是分享的大数据自学课程,祝愿每一位小伙伴都能成为真正的大数据技术人才!
学习大数据,就来北京尚学堂,多年的大数据授课经验,扎实的课程理论助你在大数据方面快人一步。
热心网友
时间:2022-04-09 16:01
Java
大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下。
Linux
因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。
Hadoop
这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
YARN
是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。
Zookeeper
这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql
我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop
这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。Hive这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie
既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。
Hbase
这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka
这是个比较好用的队列工具当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark
它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
热心网友
时间:2022-04-09 17:36
大数据开发技术无论是在企业发展还是我们生活当中,都能看到它的应用。随着大数据开发技术发展趋于成熟化,企业对大数据开发人才的需求量也在不断的增多,想要学习大数据开发技术的小伙伴越来越多。
1.以用促学。小伙伴在学习大数据开发技术的过程中,要确定自己的发展方向,在学习大数据的时候,以用促学是最为直接和有效的学习方法。这种学习方式不仅仅对在大数据培训班学习的小伙伴来说是有一定的帮助,对广大从业者学习也是有一定的指导学习性,这种学习方式不仅能让小伙伴提高学习效率,还能提升职业价值。
2.注重项目实战案例练习。项目实战案例练习对小伙伴学习大数据开发技术有一定的帮助,由于当前大数据技术体系已经趋于成熟了,所以会有很多案例可以参考学习,这个过程能够积累大量的大数据应用经验。另外,通过案例来学习大数据,还会积累一定的行业场景知识,这也会增加学习者的大数据落地应用经验。
3.注重交流。在学习大数据的过程中,初学者往往会遇到很多问题,而在这些问题当中,最为重要的问题就包括学习的方向和脉络,如果能够把握住学习大数据的关键问题,那么往往会提升学习效率,这就要求初学者要在学习的不同阶段多与大数据专家进行交流。
热心网友
时间:2022-04-09 19:27
阶段一、大数据基础——java语言基础方面
(1)Java语言基础
Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
(2) HTML、CSS与JavaScript
PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用
(3)JavaWeb和数据库
数据库、JavaWeb开发核心、JavaWeb开发内幕
阶段二、 Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
阶段三、 分布式计算框架和Spark&Strom生态体系
(1)分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(www.sina.com.cn)
(2)storm技术架构体系
Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、实战一:日志告警系统项目、实战二:猜你喜欢推荐系统实战
阶段四、 大数据项目实战(一线公司真实项目)
数据获取、数据处理、数据分析、数据展现、数据应用
阶段五、 大数据分析 —AI(人工智能)
Data Analyze工作环境准备&数据分析基础、数据可视化、Python机器学习
1、Python机器学习2、图像识别&神经网络、自然语言处理&社交网络处理、实战项目:户外设备识别分析
热心网友
时间:2022-04-09 21:35
大数据入门其实比较简单,要了解java!如果你是java程序员,那么你学大数据肯定是可以的。如果是零基础,可以先看一下黑马程序员的课程,尤其是java基础入门,学完了java入门,你就可以考虑入门大数据了!
热心网友
时间:2022-04-10 00:00
从事大数据开发需要掌握的技能可以概括为以下几个方面:
操作系统:Linux(基本操作、软件维护、权限管理、定时任务、简单Shell等)
编程语言:Java(主要)、Scala、Python等
数据采集组件及中间件:Flume、Sqoop、Kafka、Logstash、Splunk等
大数据集群核心组件:Hadoop、Hive、Impala、HBase、Spark(Core、SQL、Streaming、MLlib)、Flink、Zookeeper等
素养要求:计算机或大数据相关专业
如何学习大数据开发?
对于Linux的操作系统和编程语言的部分没什么过多说明的,不要觉得有些东西没用就跳过,有些时候编程思想和解决问题的方法同样很重要,课本上有的一定要扎实。对于和大数据相关的组件,看上去十分的繁杂,很多小伙伴可能都是钻研于每个组件的用法、算子、函数、API,这当然没有错,但是同时一定不要忘记埋在其中的主线,那就是:完整的数据分析流程。在学习的过程中一定要了解各组件的特点、区别和应用的数据场景。
离线计算
在离线计算场景下,使用的都是历史数据,也就是不会再发生改变的数据。在数据源确定以后,这些数据不会再增加、也不会再更新,比较适合对实时性要求不高的场景。大多数情况下是周期性的计算某一个指标或执行一个Job,运算耗时基本上可以控制在分钟级。
数据源:数据文件、数据库中的数据等
数据采集:Sqoop、HDFS数据上传、Hive数据导入等
数据存储:HDFS
数据分析:MapRece、Hive QL
计算结果:Hive结果表(HiveJDBC查询)、导出至关系型数据库
实时计算
实时计算所面对的数据是不断的流入的,要能够使用合适的组件处理实时流入的数据。有些时候单位时间内的数据流入会比较多,消费的比较慢。有些时候单位时间内的数据流入会比较少,消费的会比较快。所以在采集数据时一方面要保证数据不丢失,同时还需要有中间件来管理好数据。在进行实时计算时可以使用微批次的方式也可以使用其他方式,同时要处理好计算结果合并的问题,实时展示最新的结果。
数据源:日志文件增量监听等
数据采集:Flume
中间件:Kafka
数据分析:Spark-Streaming,Flink等
计算结果:HBase
以上只是简单的列举了一些实现不同场景数据流程的组件整合方案,诣在告诉大家一定要善于发现和总结不同组件的特点,把合适的组件放在合适的位置,这也是面试官经常喜欢问的场景题目。其实每个组件的使用方法和调用API并没有很复杂,重点还是在于流程化、一体化、把组件之间连接起来,不断的渗透和强化数据分析和处理的思路,能够把一个需求直接翻译成数据分析方案,这才是学习的重点。