当前位置:
产品服务 / Products
大数据实验室建设方案
    发布时间: 2019-07-08 14:56    

一、 背景

1.1 大数据行业背景和发展趋势


近年来,大数据受到我国政府的高度重视和大力支持。2015年8月31日,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),标志着将大数据纳入国家战略层面。根据前瞻产业研究院《2014—2018年中国大数据产业发展前景与投资战略规划分析报告前瞻》中的数据显示,大数据产业在2012年的市场规模已经达到4.5亿元,经过估算,2014年将会迅速增加到15亿元,2015年更是达到100亿元的产业规模,大数据市场在未来几年将继续以超过100%的年均复合增长率增长,2016年千亿级的大数据产业将会成为最有竞争活力的新型产业之一。
在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算机技术的发展,对于大数据的分析也成为了可能。
大数据本质上是庞杂数据的集合,其主要特征是信息容量巨大、数据类型繁多、存取速度快、应用价值高。如何从数量巨大、来源分散、格式多样的数据中提取有用的信息,发现新的知识,创造新的价值,成为新一代信息技术革命面临的重大课题。大数据在全球经济竞争和科技发展中占有举足轻重的地位。因此,高职院校必须紧跟当前科技的发展步伐,进行大数据检测与收集、大数据存储与处理等方面人才的培养,以技能型人才的需求为导向,大力培养大数据应用技术专业技能型人才,满足支撑社会经济发展的大数据岗位所急需的紧缺性人才需求。


1.2 大数据教学平台实验室建设的必要性

院校开设数据科学与大数据技术专业,符合当今社会经济发展对专业技能型人才的需要。院校应当按照大数据专业的建设规划,从人才培养模式、人才培养方案、课程体系、实习实训体系、技能评估能力、教学监控管理、教学资源建设、师资队伍等方面采取有效措施,加快建设步伐,努力提高数据科学与大数据技术专业的办学水准。
大数据相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该专业对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还需提供大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例。这些实验素材的准备均需专业的大数据实验室作为支撑。
目前,在我国高校的专业设置上与平台搭建、数据挖掘、大数据开发、大数据分析、数据存储实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、数理统计、金融、经管、医疗、人文地理、城乡规划、贸易、生物信息以及公共卫生等。这些专业的学生需要从原理、技术与应用等不同的角度掌握大数据平台搭建的方法与原理、挖掘的算法与技巧、分析的理论与分析知识、存储的工具与要求。学生要很好地掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例都无法在我国高校现有的实验室中完成。因此,建设专门的基于云模式的智慧教育大数据实验室就显得非常重要。


二、 大数据教学平台实验室设计理念及目标

2.1 实验室设计理念

基于云模式的智慧教育大数据实验室的设计全面落实“产、学、用、研、监、评”一体化的思想和模式,从教学、实践、使用、科研、监控、评估等多方面注重专业人才和特色人才的培养。学生可以通过在实验室的学习熟练掌握大数据的基础知识,通过掌握的知识在大数据课程实验中进行动手实践,更好的完成专业课程学习及人才岗位对接实训。
本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、案例实战等各层次实践教学,能够从面向大数据分析、大数据运维、大数据开发、大数据建模、大数据可视化、数据处理与分析、模型建立与优化等行业需求和促进学生职业发展的角度规划和建设基于云模式的智慧教育大数据实验室,真正在产业、学校及实际项目中相互配合,发挥优势,形成生产、学习、实践、运用、监控、评估的系统运作模式,从而建设大数据特色专业。
利用虚拟化教学资源,搭建实训平台和实战平台,将理论学习、实践教学和大数据搭建、数据挖掘、存储、建模、分析、优化、可视化、挖掘、分析实战融为一体,从易到难、循序渐进,逐步提升学生的学习技能和实践水平,提高“学”的质量和成效。定制专业化技能评估与教学监控功能,将学生的学习情况、专业喜好、适用岗位形成报告模版。秉承着“精准、先进、创新”的原则,实时监控学生操作,分析学习情况,评估学生知识水平,从而减轻学校及教师的压力。首先,依据监控实况教师进行精准化教学,免去非必要的讲解,节省了教师们大量的时间。其次,分析评估报告,把握学生学习动向,带有专业方向地进行指导教学。最后,推送功能将大数据公司需求模版与评估报告相匹配,若匹配度高度吻合,将直接进行推送,减轻学校为学生们的就业负担。
利用大数据分析主流软件框架,搭建与业界主要用户一致的实验环境,将理论课程中学到的平台搭建方法、数据挖掘算法、数据分析知识、数据存储工具运用到实际的大数据分析案例实验中,提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接,与教师的教学工作紧密配合。


2.2 大数据教学平台实验室建设目标与特色

2.2.1 实验室建设目标

大数据指的是所涉及的数据量规模巨大到无法利用目前主流软件工具,在合理时间内达到采集、管理、处理、并整理成为帮助企业经营决策更积极目的的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。因此智慧教育大数据实验室重点培养学生对于平台的搭建、数据的挖掘、存储与数据的分析能力。由此可见,大数据教学过程中包含平台搭建、数据获取、数据处理、模型建立、数据分析、模型优化、可视化等部分的内容。学生首先要平台搭建的方法与技巧,其次掌握数据挖掘的基本理论与算法,接着要掌握大数据处理的框架与平台,进而掌握针对大数据的数据分析方法,最后选择适用的数据库进行数据存储管理。因此本实验室建设主要内容包括平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验。同时,还包括了基础语言类和基础系统类等基础类实验内容,为学生在学习大数据之前做好基础知识铺垫。
平台搭建安装实验是开始学习大数据的引入课程。通过对基本环境的部署和配置文件的修改,掌握接下来对数据进行挖掘与分析的原理。通过该类实验使得学生能够完成对于大数据分析平台的安装与搭建工作并具有Zookeeper、Hadoop及其一系列组件的运行维护能力。
数据挖掘部分的实验包括基本实验与算法实验两部分。基本实验用于给学生建立起数据挖掘的基本概念,展示常用的数据挖掘算法。以典型的应用数据为例,展示常用算法的分析效果。算法实验为学生提供编程框架,针对重要的数据挖掘算法进行实现。该部分实验以R语言、Python、SAS为开发环境,学生通过本实验室将掌握数据挖掘主要算法的实现方法。
大数据分析实验包括基本的大数据分析平台与算法实验以及典型实战数据分析实验两部分。大数据分析平台与算法实验包括平台配置与典型算法设计两大类,通过该类实验使得学生能够完成对于大数据分析平台的配置与初始化工作并具有基本MapReduce算法开发能力。典型实战数据分析实验,让学生利用真实的行业数据,完成大数据挖掘与分析,掌握数据挖掘与大数据分析的一般流程。
数据存储部分的实验提供了目前世界上三大主流数据库知识来学习。具体实验内容包括了数据库的安装、数据库的使用、数据库的维护调优以及数据库的二次开发。该部分实验包含MySQL数据库、SQL Server、Oracle数据库等相关知识内容,学生通过本实验室将掌握数据存储的操作方法。
基础类实验包括基本语言实验与基础系统实验两部分。基本语言类实验用于给学生在学习大数据语言之前奠定基础,该部分实验以JAVA、C++为主要内容。基础系统类实验使学生了解系统的管理与配置。该部分实验以Linux为学习系统,学生通过本实验室将理解基础语言与基础系统的使用方法。


2.2.2 实验室特色

1、 大数据环境搭建与大数据算法实现相结合
大数据算法作为最新的算法分析技术具有完全不同的设计思路,算法开发过程对初次接触该部分内容的本科生而言有较大的难度,一方面是算法思想的新颖性,另一方面则是算法实现对于程序开发的能力要求较高。因此为了实验的顺利完成,需要给学生一个入门的过程,本实验室通过环境搭建以及基础性实验的过渡来实现的。本实验对于学生的要求是框架性的,学生可以在此基础上进行创新,此种模式可以用来激发和培养学生的创新意识和创新能力。
2、 多梯度、层次式的步骤式实验
为了照顾和覆盖一些能力和兴趣存在着明显差别的学生群体,在设置特色实验的具体实验内容时,提供层次性、阶段性的开发目标,不同学生可以根据自己的能力差别选择合适的开发任务难度,而且在实验过程中,学生也可以根据进度调整相应的实验难度,以避免学生不能完成实验的情况,充分维护和提高学生参与该特色实验的兴趣和信心。最后,实验步骤是分解式的步骤,即一个实验步骤包含多个知识点,每个知识点即为一个子步骤,每个知识点具有一个考核点,考核点与实验内容具有相关性,实验步骤同时具有综合测验功能,综合检测在完成所有知识点考核之后才出现,每个实验具有综合检测题库,使学生意识到每一个实验的侧重点所在之处。
3、 智能评估用户的能力水平
为了能够方便地了解到每一名学生的学习水平,打造出一套先进、高端的技能评估系统。可设定采集时间段,以一个班级或者个人为单位进行能力评估报告数据采集,内容数据可选为综合统计、实验平台统计、在线考试统计。综合统计内容包括,该用户在平台上的总在线时长、操作虚拟机的总操作时长,以饼状图展示各个不同功能模块的实操时间体系占比;统计实训平台的内容包括,该用户完成的实验数量、操作虚拟机的总时长,以柱状图展示实操时间最多的模块TOP5,以饼状图展示该学生所操作的不同实验体系的占比;在线考试内容包括,参加考试次数、答题平均正确率、初级难度试题正确率、中级难度试题正确率、高级难度试题正确率,以饼状图展示出该学生的试题难度分布;最后,可将采集到的学生学习数据形成能力评估报告进行下载,也可将该报告推送给合作企业。目的是方便教师去了解每一名学生的学习状况及喜好的专业方向,更好的帮助学生就业。
4、 高端、主流的教学监控管理
为了减轻教师的授课负担,研发出一套教学监控管理系统。首先,管理员在后台可以一次性布置全部的教学计划,随后学生通过在前端查看,即可了解到每一天的课程安排。其次,具有课程考核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统可自动检测到是否有学生正在进行实验,当有学生进行实验时可自动检测哪些学生在上哪些课程,并可设定当前正在进行实验的班级和实验,进行实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看分析目标实验、目标模块、目标班级,也可以重新设定分析目标,还可查看班级实验进度,实验步骤综合检测信息,实验总结信息。最后,可以查看学生的实验报告,支持预览和批阅等功能。此功能大大的减轻教师的负担,同时也为教师了解班级整体的学习状况提供的有力的支持。


三、 大数据教学平台实验室建设方案

大数据实验平台是由北京红亚科技研发而成,红亚科技作为专业的高校实验室建设方案提供商,结合相关知名高校及科研机构的教学及科研成果,提供了一套完整的高校数据挖掘与大数据分析的实验室解决方案。该实验室方案按照基础知识、平台搭建、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系。


3.1 基础环境建设

实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设,包括学生实验用桌椅、教学用投影音响器材、实验室空调系统、综合布线系统、安防监控系统及实验室装修系统等。通过这些基础支撑环境的建设,才能保证实验室的正常教学。
综合基础环境建设的各项内容,针对实验室的空间环境及现代实验教学的发展趋势,例如:一个实验班级60个学生可分为6个实验组,每组可安排10个学生同时进行实验,这样可安排60个学生同时进行大数据相关的实验课程。基于云模式的智慧教育大数据实验室整体环境平面设计如图所示:




如图所示,学生教学实验室采用岛状模式,突破传统的布局,节省了大部分的空间。室内的温度和采光都设计的十分合理。总而言之,为老师和学生打造了一个安静,适宜的教学环境。效果如图所示:



3.1.1 IT环境建设

IT环境建设包括实验终端个人电脑和存储规划建设。
学生实验终端计算机一方面可以采用普通终端PC机,组合成实验室局域网,支撑学生进行实验,另一方面随着云计算技术的发展,学生计算机可以采用虚拟桌面云终端的设计方式,通过采用专用云资源服务器及存云调度设备进行设计,利用服务器虚拟化的方法来对终端进行支撑,用户通过部署在实验平台的客户端进行实验操作,所有应用、数据统一存放在后台服务器,虚拟桌面云终端不存放任何数据,可进行统一管理,包括分发系统、更新软件、远程监控、审计等操作。虚拟桌面云平台也通过虚拟化平台的管理工具管理,大大降低维护人员的重复工作量。


3.1.2 网络环境建设

大数据实验平台设备提供资源管理和调度系统功能,由管理控制设备、资源调度设备以及多台计算节点设备,云资源接入设备以及网络安全设备等组成;;其中,云资源接入设备将用户和存储连接起来,是用户之间以及用户与资源之间的通信设备。用户通过统一资源调度平台调用其中的所有资源,教师可以对平台进行统一管理,包括用户组织管理、实验平台管理、云资源管理、教学监控管理、教学计划管理、在线考试管理、能力评估管理等;学生可以通过平台进行各类数据采集、清洗、建模等全生命周期实验演示与操作。
实验平台的建设采用B/S架构,全中文管理界面,且集成数据库及应用管理系统。用户可通过浏览器进行访问,且支持内网与外网同时访问。学生实验终端和教师管理终端采用终端PC机的方式,组合成实验室局域网,支撑学生进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验,;此外平台提供11套不同行业的真实数据库为学生完成不同类型的实验做支撑。教师管理终端通过实验室教学管理系统对学生终端进行统一管理;学生端可以通过大数据实训平台进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验,实验室网络拓扑图如下所示:



图 数据挖掘与大数据分析实验室网络拓扑结构



3.2 实验平台功能

大数据实验平台的建设采用B/S架构,用户通过浏览器进行访问,且支持内网与外网同时访问。平台的管理功能是针对前端系统设置的对应的管理功能,便于教学过程中对前端系统的自定义管理。后台管理包括12项功能,包括:用户组织、注册信息、职业路径、项目路径、邮件系统、实验内容、算法集、云平台、数据集、资源监控、教学管理、在线考试管理功能。


3.2.1 用户组织管理功能

用户组织管理功能包括:用户管理、角色管理、组织结构管理等功能。其中用户管理显示平台用户的信息列表,包含用户ID、学号、姓名、角色、所属组织、最后登录时间,管理端可对平台用户信息进行编辑与删除(批量删除),也可以下载平台的批量导入模版,按照需求填入信息,进行批量导入,并包含根据组织专业班级或姓名等信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

用户管理功能界面



角色管理功能界面



组织管理功能界面


3.2.2 注册信息管理功能

注册信息管理功能包括注册申请管理和注册审核记录两大功能。其中,注册申请管理处有一个注册审核开关,开关处于开启状态时,系统注册用户都需要后台进行(批量)通过或(批量)拒绝的操作,审核通过之后才可以登录系统平台;注册审核记录显示后台对前台申请用户的操作结果的一个记录,每页固定显示20条操作记录,不可调节。

注册申请管理功能界面


3.2.3 职业路径管理功能

职业路径规划是红亚科技通过企业多年来与不同行业企业合作,调研近千家合作企业对大数据技术人才需求,得出岗位群划分、岗位技术要求,根据这些需求制作的职业路径规划。职业路径管理列表显示平台对现有的部分职位一些学习路径规划。管理端可以对其进行删除、复制、再编辑、新增等操作,复制职业路径是在原有基础上进行修改且职业路径名称必须修改,职业路径再编辑是指对原有职业路径内容进行完善,可在课程管理界面添加职业路径对应模块、实验,完成之后点击保存即可。

职业路径管理列表展示界面


职业路径添加基本信息界面


3.2.4 项目路径管理功能

项目案例是综合平台技能知识点与实际项目案例结合制作完成。项目路径管理是管理包含项目的(批量)新增、(批量)删除、再编辑等操作。项目包含基本信息和课程管理两大模块,基本信息包括项目路径名称、路径简介、项目编号与项目图片;课程管理包含路径模块、章节、实验、考核知识点的编辑。通过前期学习大数据的基本概念和技术,大数据的背景、发展及关键技术,掌握Hadoop大数据平台搭建与基本应用,内容会涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等,最终完成学习大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统等


项目路径管理界面图



编辑基本信息界面图


编辑课程管理界面图


3.2.5 邮件系统配置管理功能

邮件系统配置是为了减轻管理端的任务负担,配置好邮件系统之后,学生在忘记登陆密码之后可以通过邮件找回密码。




3.2.6 实验内容管理功能


实验平台管理功能包含:实验管理、体系管理等功能。其中,用户可在实验管理功能中查看全部课程,并可对课程进行增、搜索、修改、删除管理;新增实验和已有实验涉及到的内容有实验基本信息,实验文档和虚拟机配置等。体管理是针对课程体系,可对实验体系、分类、模块、实验进行增加、修改和删除等管理。通过此功能,用户可以自己设置一些新的课件,以满足学校自定义需求。


体系管理列表界面图

实验管理列表界面图


3.2.7 算法集管理功能

算法集管理功能包含算法及管理与学科分类管理两大功能。算法集管理提供新增、删除再编辑等功能,新增算法时需要添加算法名称、配图、简介、所属学科、序号、算法内容,也可加入数据集,对算法再编辑时会显示原来版本算法。学科分类管理是指算法所属分类。大数据平台提供一些算法,学生可以在前台使用关键词进行搜索,完成搜索之后可以进行下载来使用。教师或管理端可以进行算法的修改、删除,也可以上传自己设计的算法,目前支持markdown在线编辑,也可以添加算法的一些附件,支持docx格式。本功能提供的一些算法,学生可以在此基础上进行修改,在平台上进行试验测试算法的优劣。


算法管理界面图


学科管理界面图


3.2.8 云平台管理功能

云平台管理功能包含对虚拟机镜像与容器镜像的管理。虚拟机和容器都可以提供虚拟操作环境,对比虚拟机来说,容器更加轻量级,是以容器可以满足需求都可以替代虚拟机。用户可以上传自己的虚拟机镜像,也可以对平台的镜像进行再编辑。红亚综合各方面因素,不断更新虚拟操作环境,带给用户更好体验。


虚拟机镜像管理界面图



容器镜像管理界面图


3.2.9 数据集管理功能

数据集管理功能提供本平台所有的数据,学生可以进行查看与实验,可以对学生能力进行考核,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等, 考察学生个人主动学习能力。


数据集管理界面图



3.2.10 资源监控管理功能

云资源管理功能是为用户提供虚拟化管理功能,包括资源监控中心和虚拟机资源管理。用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处的实验环境、创建位置、用户姓名、创建时间时间以及开启和关闭的状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。




内容资源统计界面图



虚拟化资源管理界面图



3.2.11 教学管理功能

教学管理功能主要帮助教师针对不同学习程度的同学制定相应的教学计划,该功能与教学监控功能相辅相成;教师通过对学生的学习的监控和数据采集和分析,根据真实数据制定相应的教学计划,对于教学根据针对性和定制化。
教师可通过管理后台选择教学计划管理功能,对教学计划列表的计划名称、计划简介、关联班级、关联任务进行增加和修改;其中简介可展示一些开课信息、作业安排等内容。教学计划内的具体任务安排可通过任务列表功能进行编辑,对实验平台内具体到每一个数据类型的实验项目进行选择增加,任务列表完成后对需要参加可课程安排的学生进行选择确认。该功能从对不同学生进行不同类型的针对性的课业安排的训练,达到了精准化个性化教学的目的。

教学计划列表界面图



强制模式管理界面图



课程考核管理界面图



实验报告列表界面图



3.2.12 在线考试管理功能

在线考试管理功能支持教师组织校内考试使用,主要以选择题为主,包括考试进度,题目信息,倒计时,题目导航等功能,系统自带1000道大数据分析题目,后台支持用户批量导入考题。
在线考试管理功能包含考场管理、试卷管理、考题管理和成绩管理四个方面。教师通过考场管理功能可对考试班级进行新增以及管理考试名称、试卷、开始时间、考场排序和考试的简单说明等信息;同时可对进行本次考试的考生进行管理。考场和考生设定好之后对考试试卷以及相应的考题进行增删和修改。考试过程中或者结束后,教师可对本次考试成绩进行查看。


试题管理列表界面图



试卷管理列表界面图



考场管理列表界面图



成绩管理列表界面图



3.3 实验平台体系规划

实验平台可从功能模块、业务职位需求和难易程度上来进行体系的规划分类。按功能模块可以分为Hadoop类、Spark类、R语言、SAS语言、Python语言、基础类等类型;按业务需求可分为大数据架构师、大数据挖掘工程师、算法工程师、大数据产品经理、大数据分析师、大数据统计师、运维工程师、大数据仓库工程师、研发工程师、大数据编程师、大数据售前工程师、大数据售后工程师等方向;按难易程度可以分为基础类、安装类、挖掘类、分析类、存储类、综合案例等类型。


3.4 大数据实验课程内容

大数据实验类型包含实操实验、阅读实验和视频实验三大类型,实操实验类型是在实操虚拟机环境下依据实验指导书完成的实验;阅读实验是仅需阅读与系统答题即可;视频实验是不需要实操环境,仅靠学生阅读比较难以理解的内容,红亚与本方面专家合作制作的;三种实验类型结合授课,便于学生突破知识难点,更好的掌握知识技能。大数据实验内容包含Hadoop安装、Hive应用、Hbase数据库、Hadoop项目案例、Pig语言、Spark基础实验、Spark流式计算、Spark sql、机器学习spark mllib、spark案例、R语言基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、SAS基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、python语言基础、python可视化、python算法、python数据分析与挖掘实战、Java语言基础、C++、Excel数据处理、Excel高级编程、Mysql、Sql Server、Oracle、Linux基础、Mapreduce编程、pig语言、kafka、flume、mahout、ELK、Impla等实验模块。实验课程项目包括目的和原理,实验步骤,综合测验,实验操作,实验报告,虚拟机列表提供配套的操作教材,配套数据集,配套的算法代码等内容。这些内容的交叉组合可以实现针对不同专业与不同层次学生的实验课程设计。实验内容有十大课程体系60个模块共计600多个实验项目,采用实验管理系统,能够提供一个完整的、一体化的实验教学环境,从而打造出全方位的专业大数据教学平台实验室。




3.4.1 编程基础类实验

编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计82个实验项目。Python基础模块首先从Python的安装开始,随后介绍了Python的基础知识和基本概念,包括列表、元组、字符串、字典以及各种语句;然后循序渐进地介绍了一些相对高级的主题,包括抽象、异常、魔法方法、属性、迭代器,同时介绍了Python程序测试、打包、发布等知识,从而发挥出Python的强大功能。R语言基础模块涵盖了R语言的社区和环境介绍;R语言的各种数据结构(单模式/多模式数据结构,日期、时间和因子);包括各种常用函数、实用函数和应用函数在内的R语言函数。Scala基础模块详细介绍Scala的一些基础知识,并和Java中的相关概念进行了参照,介绍在Scala中如何进行并发编程,方便读者快速上手Scala。Java基础让初学者能达到熟悉Java语言并灵活运用的程度。针对每一个所讲解的知识点都进行了深入分析,并使用生动形象的情境化举例,将原本复杂的、难于理解的知识点和问题进行简化,针对每个知识点,精心设计了相应的问题,让学习者不但能掌握和理解这些知识点,并且还可以清楚地知道在实际工作中如何去运用。

模块

章节

 实验

Python基础

Python基础

Python开发环境搭建

Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择结构与循环结构

Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

Python字典创建与使用

Python字典方法

Python集合创建与使用

Python集合常用运算

Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

Python异常概念与常见表现形式

Python常见异常处理结构

Pythonraise语句

R语言基础

R语言基础

R语言开发环境搭建

对象与属性

向量

矩阵和数组

列表

数据框

构建子集

lapply函数

apply函数

mapply函数

split函数

tapply函数

排序

Scala基础

Scala基础

Scala开发环境搭建

Scala控制结构和函数

Scala数组相关操作

Scala映射与元组

Scala类与对象

Scala包管理

Scala继承

Scala文件和正则表达式

Scala特性

Scala操作符

Scala高阶函数

Scala集合

Scala模式匹配和样例类

Scala注解

Scala类型参数

Scala高级类型

Scala隐式转换和隐式参数

Java基础

Java基础

Java开发环境搭建

Java的类与对象

Java标识符、关键字与运算符

Java基本数据类型

Java流程控制

Java继承与多态

Java抽象与接口

Java内部类

Java异常处理

Java集合类

Java基础类库

Java泛型

Java的输入与输出

Java多线程

Java数据库操作






3.4.2 数学基础类实验

一谈到大数据技术,很多人首先想到的是数学,因为数字在数学体系中稳固的位置,而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块31个实验项目。信息论包含熵、联合熵、条件熵、相对熵、互信息、最大熵模型;线性代数包含标量、向量、张量、范数、矩阵、特征分解、几种常用距离计算;概率论与数理统计包含随机变量、概率分布、贝叶斯公式、期望、方差、协方差、常见分布函数、最大似然估计;数值计算包含数值计算概述、上溢和下溢、计算复杂性与NP问题;最优化方法包含最优化理论概述、最优化问题的数学描述、凸集与凸集分离方法、梯度下降算法、共轭梯度法、启发式优化方法、牛顿法和拟牛顿法。

信息论

信息论

联合熵

条件熵

相对熵

互信息

最大熵模型

线性代数

线性代数

标量

向量

张量

范数

矩阵

特征分解

几种常用距离计算

概率论与数理统计

概率论与数理统计

随机变量

概率分布

贝叶斯公式

期望

方差

协方差

常见分布函数

最大似然估计

数值计算

数值计算

数值计算概述

上溢和下溢

计算复杂性与NP问题

最优化方法

最优化方法

最优化理论概述

最优化问题的数学描述

凸集与凸集分离方法

梯度下降算法

共轭梯度法

启发式优化方法

牛顿法和拟牛顿法





3.4.3 Linux基础类实验

Linux系统是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。各国政府对Linux的开发和应用给予很大关注,全球软件业和厂商都以极大热情和资金投入Linux的开发。现在学习和应用Linux成为众多计算机用户和学生的首选。Linux基础实验包含Linux系统概述、字符操作环境、Linux文件系统、进程管理、常用命令介绍、用户管理、系统监控与备份、软件包管理、管理网络服务共计九个章节32个实验。


Linux基础

Linux系统概述

Linux简介

Linux应用领域

Linux优势

字符操作环境

使用Shell

字符编辑器VI

Linux文件系统

Linux文件

ext3文件系统

安装和卸载文件系统

进程管理

Linux进程概述

进程控制命令

常用命令介绍

目录操作

文件操作

磁盘操作

文本编辑

帮助命令

用户管理

Linux用户账户概述

管理用户和群组

命令行配置

用户管理器配置

系统监控与备份

显示系统进程

查看硬件信息

查看日志文件

备份与恢复

软件包管理

RPM概述

RPM的使用

检查软件包签名

软件包管理工具

管理网络服务

守护进程服务

网络配置文件

配置FTP服务

配置邮件服务器

Apache服务器






3.4.4 数据库基础类实验

数据库已是当今信息社会须臾不可脱离的重要工具,数据库的教学也就成为计算机科学与技术专业的一门必修课程。数据库基础类实验包含excel、mysql、oracle、mongodb、redis+memcache和sqlLite共计六大模块55个实验。

Excel

Excle

Excel函数与公式

Excel数据统计与汇总

VBA程序基础

VBA数据类型

VBA流程控制

VBA综合应用

mysql

Mysql

MySQL简介与安装

MySQL创建连接

MySQL操作数据库

MySQL操作数据表

MySQL操作数据

MySQL条件限定与正则表达式

MySQL表的连接

MySQL排序、分组与过滤

MySQL结果合并

MySQL函数

MySQL导入与导出

oracle

Oracle

Oracle简介与安装

Oracle数据类型

Oracle数据表管理

Oracle基本查询

Oracle单行函数

Oracle分组函数

Oracle多表查询

OraclePLSQL

mongodb

MongoDB

MongoDB简介与安装

MongoDB创建连接

MongoDB操作数据库

MongoDB操作集合

MongoDB操作文档

MongoDB条件操作符与正则表达式

MongoDBLimitSkip方法

MongoDB排序与聚合

redis+memcache

Redis

Redis简介、安装与配置

Redis命令

Redis

Redis数据类型

Redis基数统计

Redis服务器与连接

memcached简介与安装

memcached连接

memcached存储

memcached查找

memcached统计

sqlLite

SQLite

sqlLite简介与安装

sqlLite创建连接

sqlLite操作数据库

sqlLite操作数据表

sqlLite操作数据

sqlLite条件限定与通配符

sqlLite表的连接

sqlLite排序、分组与过滤

sqlLite结果合并

sqlLiteExplain细节描述

sqlLite函数





3.4.5 Spark数据处理类实验

Spark 最早的一部分用户来自加州伯克利分校的其他研究小组,其中比较著名的有 Mobile Millennium。作为机器学习领域的研究项目,他们利用 Spark 来监控并预测旧金山湾区的交通拥堵情况。仅仅过了短短的一段时间,许多外部机构也开始使用 Spark。如今,有超过50个机构将自己添加到了使用 Spark 的机构列表页面。在 Spark 社区如火如荼的社区活动 Spark Meetups和 Spark 峰会中,许多机构也向大家积极分享他们特有的Spark应用场景。Spark数据处理类实验包含Spark基础、数据读取与存储、Spark程序结构、Spark流式计算、Spark SQL、Spark与机器学习、GraphX、11个案例分析共计八大模块82个实验项目。

Spark基础

Spark简介

Spark介绍

Spark体系架构

Spark的安装与配置

Spark运行模式

Spark生态系统BDAS

Spark核心概念

RDD弹性分布式数据集

RDD的依赖关系

RDD共享变量

Spark优化

RDD编程

创建RDD

转化操作

行动操作

惰性求值

传递参数

持久化

Pair RDD的创建

Pair RDD的转化操作

Pair RDD的行动操作

数据分区

数据读取与存储

文件系统

Amazon S3的读取与存储

HDFS中的读取与存储

数据库

Cassandra

Elasticsearch

HBase

Java JDBC连接

文件格式

文本文件的读取与存储

JSON文件的读取与存储

CSVTSV文件的读取与存储

序列文件的读取与存储

对象文件的读取与存储

Hadoop的输入输出读写

压缩文件的读取与存储

Spark程序结构

Spark程序结构

Spark架构设计

Spark算子分类

Spark核心组件

Spark程序执行基本流程

Spark流式计算

Spark流式计算

Spark Streaming介绍

Spark Streaming架构

Spark Streaming部署

Spark Steaming编程

Spark streaming性能调优

FlumeKafkaSpark Streamng结合使用

Spark SQL

Spark SQL

Spark SQL介绍

Spark SQL架构

DataFrame

Spark SQLShell

Spark SQLUDF使用

Hive UDF

JDBC操作MySQL

Spark SQL性能调优

网站日志分析实例

Spark与机器学习

Spark Mllib

特征提取和转化

降维操作

协同过滤算法原理及使用

FP-growth算法及使用

Spark机器学习的优势和潜力

Spark MLlib的数据类型

线性回归算法原理与使用

逻辑回归算法的原理及使用

支持向量计算法原理与使用

朴素贝叶斯算法原理与使用

决策树算法原理与使用

随机森林算法原理与使用

K-Means算法原理与使用

GraphX

GraphX

GraphX简介

Graphx常用数据结构

GraphX图算法

GraphX属性图

GraphX图操作符

GraphX Pregel API

PageRank算法实战

案例分析

案例分析

网络日志分析

电商广告案例

实时路况案例

黑名单案例

性别预测案例

年龄预测案例

垃圾邮件案例

图片分类案例

电影推荐案例

推荐系统案例

金融数据分析案例




3.4.6 Python数据处理类实验

Python是当今炙手可热的数据分析工具,是一种面向对象的解释型计算机程序设计语言,拥有丰富和强大的库,已经成为继Java、C++之后的第三大语言。其特点是简单易学、免费开源、高级语言、可移植性强、面向对象,具有可扩展性、可嵌入性、丰富的库、规范的代码等。 Python数据处理类实验包含Python基础知识、Python爬虫、使用pandas进行数据处理、可视化技术与matplotlib、Python相关算法和模型调优与实战共计六大模块110个实验项目。

Python基础知识

Python基础简介

Python语言概述

为何学习Python语言

Python主要应用领域

Python开发环境搭建

初识Python

Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择与循环结构

Python猜数字游戏

列表与元组

Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

字符串与正则表达式

Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

字典

Python字典创建与使用

Python字典方法

集合

Python集合创建与使用

Python集合常用运算

文件操作

Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

函数5

Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

面向对象

Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

异常处理结构

Python异常概念与常见表现形式

Python常见异常处理结构

Pythonraise语句

Python 爬虫

爬虫初识

爬虫简介

爬虫应用场景

爬虫基本工作原理

网络请求基础

TCP/IP协议

HTTP请求格式

HTTP常用请求头

响应状态码

浏览器发送HTTP请求的过程

cookiesession

使用Python发送网络请求

Requests模块介绍

使用Requests发送post请求

使用Requests发送get请求

使用Requests发送带Header请求

使用Requests发送带参数请求

Python爬虫实战

XPATH介绍及节点选择

LXML介绍及使用

对抗反爬虫措施

网站数据爬取实验

IP代理数据爬取

使用pandas进行数据处理

基础概念

SeriesDataFrame简介

DataFrame常用属性方法

数据访问

读写文件

数据清洗

缺失值处理

重复值处理

异常值处理

数据集成

使用键参数的DataFrame合并

轴向连接

数据变换

利用函数或映射进行数据转换

替换值

重命名轴索引

离散化和面元

可视化技术与matplotlib

可视化与Matplotlib

绘制折线图

绘制散点图

绘制饼状图

绘制柱状图

绘图区域分割

结合pandas进行数据可视化

Python相关算法

分类与预测

Logistic回归分析

决策树

K近邻分类算法

人工神经网络

支持向量机

随机森林

常用聚类分析算法

K-Means聚类算法

系统聚类算法

DBSCAN聚类算法

关联规则算法

Apriori算法简介

Apriori算法应用

协同过滤算法

基于用户的协同过滤算法

基于物品的协同过滤算法

时间序列数据分析

时间序列预处理

平稳时间序列分析

非平稳时间序列分析

Python主要时序模式算法

离群点检测方法

离群点检测概述

基于密度的离群点检测方法

基于聚类的离群点检测方法

基于距离的离群点检测方法

数据降维

数据降维概述

常用降维方法简介

模型调优与实战

模型评估与调优

模型评估和调优的意义

评估指标

模型调优建议与注意事项

数据分析与挖掘实战

电子商务的智能推荐

财政收入分析

电商产品评价分析

电力窃漏识别分析

电器使用情况分析





3.4.7 Hadoop平台类实验

学习不错分析技术并利用现有工具包使分析应用更加强大、准确和高效!Hadoop数据分析使用Hadoop生态系统设计和构建大数据系统将架构、设计及实现信息恰当地融为一体。Hadoop平台类实验包含Hadoop基础、分布式存储HDFS、MapReduce编程模型、数据仓库Hive、数据库HBase、Pig语言、ZooKeeper、Kafka、Flume、Mahout、Storm、ELK、Impala、8个项目案例共计十四大模块84个实验项目。

Hadoop基础

Hadoop初识简介

Hadoop介绍

Hadoop体系架构

Hadoop软件安装及配置

单节点伪分布式安装

分布式存储HDFS

分布式存储HDFS

HDFS安装

HDFS的相关概念

HDFS文件存储机制

HDFS的数据存储管理

HDFS的数据读写过程

MapReduce编程模型

MapReduce编程模型

MapReduce简介

MapReduce架构

MapReduce接口类

MapReduce代码编程

MapReduce经典案例—WordCount

分布式资源调度系统YARN的安装

MapReduceYARN命令

Hadoop数据仓库Hive

Hadoop数据仓库Hive

Hive简介

HiveDDL

HiveDML

Hive UDFV1.0

Hive数据清洗项目

Hive统计UV项目

Hadoop数据库Hbase

Hadoop数据库Hbase

HBase简介

HBaseshell应用v2.0

使用Hive操作HBase

HBaseJavaAPI应用

HBase学生选课案例

HBase微博案例

Pig语言

Pig语言

Pig简介

Pig的安装与运行

命令行交互工具Grunt

Pig数据模型

Pig Latin基础知识

Pig Latin关系操作

Pig Latin高级应用

ZooKeeper

ZooKeeper

Zookeeper简介

Zookeeper工作原理

Zookeeper安装与配置

Zookeeper基本操作实例

集群管理

共享锁

队列管理

Kafka

Kafka

Kafka简介

Kafka工作原理

Kafka安装与配置

生产者消费者实例

Flume

Flume

Flume简介

Flume架构与工作原理

Flume安装与配置

案例:Avro

案例:Spool

案例:Exec

案例:Syslogtcp

Mahout

Mahout

Mahout简介

推荐算法

聚类算法

分类算法

使用Mahout构建职位推荐案例

Storm

Storm

Storm简介

Storm架构与运行原理

Storm安装与配置

Storm入门实例

Storm日志分析实战

ELK

ELK

ELK简介

安装与配置Elasticsearch

安装与配置Logstash

安装与配置Kibana

处理JSON格式Nginx日志

处理Nginx日志

处理Apache日志

处理Twitterdingyue

纽约交通事故数据分析

美国联邦选举委员竞选捐款数据分析

Impala

Impala

impala简介

数据库语句

impala table操作

Hadoop项目案例

Hadoop项目案例

QQ好友推荐算法

RageRank算法

Tf-Idf算法

数据关联案例

ETL案例

PV UV统计案例

用户流失和新增案例

Hadoop总结





3.4.8 SAS数据分析类实验

SAS引导大数据时代的发展,产品线覆盖了数据分析的各个方面,包括高性能分析、可视化分析和云计算等诸多新领域。SAS数据分析类实验包含SAS基础简介、SAS数据导入导出、条件判断和循环语句、SAS数据可视化、SAS统计与建模、SAS数据挖掘和SAS数据分析综合应用共计七大模块36个实验项目。

SAS基础简介

SAS基础简介

SAS概述

为何学习SAS

SAS主要应用领域

SAS的特点及模块组成

SAS软件基本介绍

SAS编程基础——逻辑库与数据集

SAS数据导入导出

SAS数据导入导出

读数据和生成数据集

写数据

导入数据

导出数据

条件判断和循环语句

条件判断和循环语句

SAS语句的基本组成

条件判断语句

循环语句

SAS数据可视化

SAS数据可视化

图形绘制

条形图

饼图

散点图

箱形图

使用图形界面绘图

图形编辑

SAS统计与建模

SAS统计与建模

描述性统计

置信区间和假设检验

线性回归模型

广义线性回归模型

方差分析

SAS数据挖掘

SAS数据挖掘

主成分分析

因子分析

聚类分析

判别分析

相关分析

生存分析

SAS数据分析综合应用

SAS数据分析综合应用

建立营销响应模型

预测股票价格

建立信用评分模型

预测门店销售额

人口教育情况分析





3.4.9 深度学习类实验

深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。 深度学习类实验包含神经网络、训练技巧和TensorFlow实战三大模块共计30个实验项目。

经网络

神经网络

人工神经网络介绍

激活函数与线性不可分

优化算法

参数初始化

超参数设计

前馈神经网络

网络结构

线性回归训练

神经网络训练

卷积神经网络

卷积基本概念

卷积核

卷积层其他参数

池化层

SOFTMAX函数与交叉熵

经典CNN网络

卷积神经网络的应用场景

循环神经网络

隐马尔可夫模型

RNNBPTT算法

LSTM算法

循环神经网络的应用场景

训练技巧

训练技巧

过拟合与欠拟合

防止过拟合方法

梯度消失

学习率和自适应学习率调整

TensorFlow实战

CNN实战

CNN数字识别系统实战

CNN花卉识别系统实战

CNN语音识别实战

CNN图片分类实战

RNN实战

RNN数字识别系统实战

RNN花卉识别系统实战

聊天机器人实战





3.4.10 机器学习类实验

机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习类实验包含机器学习基础知识、TensorFlow的基础操作和机器学习算法三大模块共计30个实验。

机器学习基础知识

机器学习基础知识

机器学习介绍

常用机器学习模型

线性回归模型

逻辑回归模型

损失函数

梯度下降

TensorFlow的基础操作

TensorFlow的基础操作

TensorFlow的安装

TensorFlow基础知识

计算图

建立回归模型

多项式回归实验

模型的保存与加载

模型参数可视化

机器学习算法

聚类算法

K-Means算法

有趣模式

层次聚类

密度聚类

聚类评估

分类方法

朴素贝叶斯

决策树归纳

随机森林

支持向量机SVM

遗传算法

关联分析

频繁模式

Apiriori算法

相关性分析

稀有模式和负模式

用户画像

标签

画像的方法

用户画像的使用





3.4.11 R语言数据处理类实验

R语言是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统、数组运算工具(其向量、矩阵运算方面功能尤其强大)、完整连贯的统计分析工具、优秀的统计制图功能、简便而强大的编程语言,可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 R语言数据处理类实验包含R语言基础、数据准备、R语言数据处理、R语言数据分析、R语言数可视化和R语言数据分析综合应用共计六大模块79个实验项目。

R语言基础

R语言简介

R语言概述与主要应用领域

为何学习R语言

R语言开发环境搭建

R语言数据结构

R语言数据类型

R语言数据结构的概念

Array数组和factor因子功能的使用

List列表和DataFrame数据框功能的运用

R语言程序结构

R语言向量化计算

对象改值

就地改值

逻辑值取双子集

缺失信息

R的记号体系

值的选取

发牌和洗牌实例

S类系统

S3系统简介与属性

泛型函数

方法

类、S3与调试

数据准备

R语言数据挖掘

数据挖掘简介

数据挖掘常见问题

数据挖掘流程

分类预测基本流程

R语言数据预处理

R语言决策树分类方法

R语言高级分类方法

R语言聚类分析与关联分析

智能推荐

时间序列

离群点检测

网页数据抓取

HTML数据抓取

JSON数据抓取

使用Google分析网页结构

R语言数据处理

R语言数据处理

R语言数据处理导入

导入参数匹配和R语言数据导出

重复值处理

缺失值处理

空格值处理和字段抽取

记录抽取和随机抽样

记录合并

字段匹配

简单计算和数据标准化

数据分组

日期格式处理

日期抽取

虚拟变量

R语言统计与建模

R语言常用概率分布和渐进性

R语言置信区间和假设实验

R语言单元线性回归模型

R语言多元线性回归模型

R语言广义线性回归模型

R语言数据分析

R语言数据分析

基本统计

对比分析

分组分析

分布分析

交叉分析

结构分析

相关分析

简单线性回归分析

多重线性回归分析

RFM分析

矩阵分析

R语言数可视化

R语言数据可视化

饼图

散点图

折线图

柱形图

直方图

箱线图

树形图

热力地图+地图

R语言数据分析综合应用

R语言数据分析综合应用

建立销售响应模型

预测销售额

水质评估

财政收入分析预测模型

骑车数据可视化分析

房价指数的分析与预测