大数据教学实验室解决方案
来源:
|
作者:pmo77cad2
|
发布时间: 2019-05-13
|
4538 次浏览
|
分享到:
一、 背景
1.1 大数据行业背景和发展趋势
近年来,大数据受到我国政府的高度重视和大力支持。2015年8月31日,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),标志着将大数据纳入国家战略层面。根据前瞻产业研究院《2014—2018年中国大数据产业发展前景与投资战略规划分析报告前瞻》中的数据显示,大数据产业在2012年的市场规模已经达到4.5亿元,经过估算,2014年将会迅速增加到15亿元,2015年更是达到100亿元的产业规模,大数据市场在未来几年将继续以超过100%的年均复合增长率增长,2016年千亿级的大数据产业将会成为最有竞争活力的新型产业之一。
在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算机技术的发展,对于大数据的分析也成为了可能。
一、 背景
1.1 大数据行业背景和发展趋势
近年来,大数据受到我国政府的高度重视和大力支持。2015年8月31日,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),标志着将大数据纳入国家战略层面。根据前瞻产业研究院《2014—2018年中国大数据产业发展前景与投资战略规划分析报告前瞻》中的数据显示,大数据产业在2012年的市场规模已经达到4.5亿元,经过估算,2014年将会迅速增加到15亿元,2015年更是达到100亿元的产业规模,大数据市场在未来几年将继续以超过100%的年均复合增长率增长,2016年千亿级的大数据产业将会成为最有竞争活力的新型产业之一。
在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算机技术的发展,对于大数据的分析也成为了可能。
大数据本质上是庞杂数据的集合,其主要特征是信息容量巨大、数据类型繁多、存取速度快、应用价值高。如何从数量巨大、来源分散、格式多样的数据中提取有用的信息,发现新的知识,创造新的价值,成为新一代信息技术革命面临的重大课题。大数据在全球经济竞争和科技发展中占有举足轻重的地位。因此,高职院校必须紧跟当前科技的发展步伐,进行大数据检测与收集、大数据存储与处理等方面人才的培养,以技能型人才的需求为导向,大力培养大数据应用技术专业技能型人才,满足支撑社会经济发展的大数据岗位所急需的紧缺性人才需求。
1.2 大数据教学平台实验室建设的必要性
院校开设数据科学与大数据技术专业,符合当今社会经济发展对专业技能型人才的需要。院校应当按照大数据专业的建设规划,从人才培养模式、人才培养方案、课程体系、实习实训体系、技能评估能力、教学监控管理、教学资源建设、师资队伍等方面采取有效措施,加快建设步伐,努力提高数据科学与大数据技术专业的办学水准。
大数据相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该专业对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还需提供大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例。这些实验素材的准备均需专业的大数据实验室作为支撑。
目前,在我国高校的专业设置上与平台搭建、数据挖掘、大数据开发、大数据分析、数据存储实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、数理统计、金融、经管、医疗、人文地理、城乡规划、贸易、生物信息以及公共卫生等。这些专业的学生需要从原理、技术与应用等不同的角度掌握大数据平台搭建的方法与原理、挖掘的算法与技巧、分析的理论与分析知识、存储的工具与要求。学生要很好地掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例都无法在我国高校现有的实验室中完成。因此,建设专门的基于云模式的智慧教育大数据实验室就显得非常重要。
二、 大数据教学平台实验室设计理念及目标
2.1 实验室设计理念
基于云模式的智慧教育大数据实验室的设计全面落实“产、学、用、研、监、评”一体化的思想和模式,从教学、实践、使用、科研、监控、评估等多方面注重专业人才和特色人才的培养。学生可以通过在实验室的学习熟练掌握大数据的基础知识,通过掌握的知识在大数据课程实验中进行动手实践,更好的完成专业课程学习及人才岗位对接实训。
本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、案例实战等各层次实践教学,能够从面向大数据分析、大数据运维、大数据开发、大数据建模、大数据可视化、数据处理与分析、模型建立与优化等行业需求和促进学生职业发展的角度规划和建设基于云模式的智慧教育大数据实验室,真正在产业、学校及实际项目中相互配合,发挥优势,形成生产、学习、实践、运用、监控、评估的系统运作模式,从而建设大数据特色专业。
利用虚拟化教学资源,搭建实训平台和实战平台,将理论学习、实践教学和大数据搭建、数据挖掘、存储、建模、分析、优化、可视化、挖掘、分析实战融为一体,从易到难、循序渐进,逐步提升学生的学习技能和实践水平,提高“学”的质量和成效。定制专业化技能评估与教学监控功能,将学生的学习情况、专业喜好、适用岗位形成报告模版。秉承着“精准、先进、创新”的原则,实时监控学生操作,分析学习情况,评估学生知识水平,从而减轻学校及教师的压力。首先,依据监控实况教师进行精准化教学,免去非必要的讲解,节省了教师们大量的时间。其次,分析评估报告,把握学生学习动向,带有专业方向地进行指导教学。最后,推送功能将大数据公司需求模版与评估报告相匹配,若匹配度高度吻合,将直接进行推送,减轻学校为学生们的就业负担。
利用大数据分析主流软件框架,搭建与业界主要用户一致的实验环境,将理论课程中学到的平台搭建方法、数据挖掘算法、数据分析知识、数据存储工具运用到实际的大数据分析案例实验中,提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接,与教师的教学工作紧密配合。
2.2 大数据教学平台实验室建设目标与特色
2.2.1 实验室建设目标
大数据指的是所涉及的数据量规模巨大到无法利用目前主流软件工具,在合理时间内达到采集、管理、处理、并整理成为帮助企业经营决策更积极目的的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。因此智慧教育大数据实验室重点培养学生对于平台的搭建、数据的挖掘、存储与数据的分析能力。由此可见,大数据教学过程中包含平台搭建、数据获取、数据处理、模型建立、数据分析、模型优化、可视化等部分的内容。学生首先要平台搭建的方法与技巧,其次掌握数据挖掘的基本理论与算法,接着要掌握大数据处理的框架与平台,进而掌握针对大数据的数据分析方法,最后选择适用的数据库进行数据存储管理。因此本实验室建设主要内容包括平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验。同时,还包括了基础语言类和基础系统类等基础类实验内容,为学生在学习大数据之前做好基础知识铺垫。
平台搭建安装实验是开始学习大数据的引入课程。通过对基本环境的部署和配置文件的修改,掌握接下来对数据进行挖掘与分析的原理。通过该类实验使得学生能够完成对于大数据分析平台的安装与搭建工作并具有Zookeeper、Hadoop及其一系列组件的运行维护能力。
数据挖掘部分的实验包括基本实验与算法实验两部分。基本实验用于给学生建立起数据挖掘的基本概念,展示常用的数据挖掘算法。以典型的应用数据为例,展示常用算法的分析效果。算法实验为学生提供编程框架,针对重要的数据挖掘算法进行实现。该部分实验以R语言、Python、SAS为开发环境,学生通过本实验室将掌握数据挖掘主要算法的实现方法。
大数据分析实验包括基本的大数据分析平台与算法实验以及典型实战数据分析实验两部分。大数据分析平台与算法实验包括平台配置与典型算法设计两大类,通过该类实验使得学生能够完成对于大数据分析平台的配置与初始化工作并具有基本MapReduce算法开发能力。典型实战数据分析实验,让学生利用真实的行业数据,完成大数据挖掘与分析,掌握数据挖掘与大数据分析的一般流程。
数据存储部分的实验提供了目前世界上三大主流数据库知识来学习。具体实验内容包括了数据库的安装、数据库的使用、数据库的维护调优以及数据库的二次开发。该部分实验包含MySQL数据库、SQL Server、Oracle数据库等相关知识内容,学生通过本实验室将掌握数据存储的操作方法。
基础类实验包括基本语言实验与基础系统实验两部分。基本语言类实验用于给学生在学习大数据语言之前奠定基础,该部分实验以JAVA、C++为主要内容。基础系统类实验使学生了解系统的管理与配置。该部分实验以Linux为学习系统,学生通过本实验室将理解基础语言与基础系统的使用方法。
2.2.2 实验室特色
1、 大数据环境搭建与大数据算法实现相结合
大数据算法作为最新的算法分析技术具有完全不同的设计思路,算法开发过程对初次接触该部分内容的本科生而言有较大的难度,一方面是算法思想的新颖性,另一方面则是算法实现对于程序开发的能力要求较高。因此为了实验的顺利完成,需要给学生一个入门的过程,本实验室通过环境搭建以及基础性实验的过渡来实现的。本实验对于学生的要求是框架性的,学生可以在此基础上进行创新,此种模式可以用来激发和培养学生的创新意识和创新能力。
2、 多梯度、层次式的步骤式实验
为了照顾和覆盖一些能力和兴趣存在着明显差别的学生群体,在设置特色实验的具体实验内容时,提供层次性、阶段性的开发目标,不同学生可以根据自己的能力差别选择合适的开发任务难度,而且在实验过程中,学生也可以根据进度调整相应的实验难度,以避免学生不能完成实验的情况,充分维护和提高学生参与该特色实验的兴趣和信心。最后,实验步骤是分解式的步骤,即一个实验步骤包含多个知识点,每个知识点即为一个子步骤,每个知识点具有一个考核点,考核点与实验内容具有相关性,实验步骤同时具有综合测验功能,综合检测在完成所有知识点考核之后才出现,每个实验具有综合检测题库,使学生意识到每一个实验的侧重点所在之处。
3、 智能评估用户的能力水平
为了能够方便地了解到每一名学生的学习水平,打造出一套先进、高端的技能评估系统。可设定采集时间段,以一个班级或者个人为单位进行能力评估报告数据采集,内容数据可选为综合统计、实验平台统计、在线考试统计。综合统计内容包括,该用户在平台上的总在线时长、操作虚拟机的总操作时长,以饼状图展示各个不同功能模块的实操时间体系占比;统计实训平台的内容包括,该用户完成的实验数量、操作虚拟机的总时长,以柱状图展示实操时间最多的模块TOP5,以饼状图展示该学生所操作的不同实验体系的占比;在线考试内容包括,参加考试次数、答题平均正确率、初级难度试题正确率、中级难度试题正确率、高级难度试题正确率,以饼状图展示出该学生的试题难度分布;最后,可将采集到的学生学习数据形成能力评估报告进行下载,也可将该报告推送给合作企业。目的是方便教师去了解每一名学生的学习状况及喜好的专业方向,更好的帮助学生就业。
4、 高端、主流的教学监控管理
为了减轻教师的授课负担,研发出一套教学监控管理系统。首先,管理员在后台可以一次性布置全部的教学计划,随后学生通过在前端查看,即可了解到每一天的课程安排。其次,具有课程考核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统可自动检测到是否有学生正在进行实验,当有学生进行实验时可自动检测哪些学生在上哪些课程,并可设定当前正在进行实验的班级和实验,进行实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看分析目标实验、目标模块、目标班级,也可以重新设定分析目标,还可查看班级实验进度,实验步骤综合检测信息,实验总结信息。最后,可以查看学生的实验报告,支持预览和批阅等功能。此功能大大的减轻教师的负担,同时也为教师了解班级整体的学习状况提供的有力的支持。
三、 大数据教学平台实验室建设方案
大数据实验平台是由北京红亚科技研发而成,红亚科技作为专业的高校实验室建设方案提供商,结合相关知名高校及科研机构的教学及科研成果,提供了一套完整的高校数据挖掘与大数据分析的实验室解决方案。该实验室方案按照基础知识、平台搭建、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系。
3.1 基础环境建设
实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设,包括学生实验用桌椅、教学用投影音响器材、实验室空调系统、综合布线系统、安防监控系统及实验室装修系统等。通过这些基础支撑环境的建设,才能保证实验室的正常教学。
综合基础环境建设的各项内容,针对实验室的空间环境及现代实验教学的发展趋势,例如:一个实验班级60个学生可分为6个实验组,每组可安排10个学生同时进行实验,这样可安排60个学生同时进行大数据相关的实验课程。基于云模式的智慧教育大数据实验室整体环境平面设计如图所示:
用户管理功能界面

角色管理功能界面
组织管理功能界面
3.2.2 注册信息管理功能
注册信息管理功能包括注册申请管理和注册审核记录两大功能。其中,注册申请管理处有一个注册审核开关,开关处于开启状态时,系统注册用户都需要后台进行(批量)通过或(批量)拒绝的操作,审核通过之后才可以登录系统平台;注册审核记录显示后台对前台申请用户的操作结果的一个记录,每页固定显示20条操作记录,不可调节。
注册申请管理功能界面
3.2.3 职业路径管理功能
职业路径规划是红亚科技通过企业多年来与不同行业企业合作,调研近千家合作企业对大数据技术人才需求,得出岗位群划分、岗位技术要求,根据这些需求制作的职业路径规划。职业路径管理列表显示平台对现有的部分职位一些学习路径规划。管理端可以对其进行删除、复制、再编辑、新增等操作,复制职业路径是在原有基础上进行修改且职业路径名称必须修改,职业路径再编辑是指对原有职业路径内容进行完善,可在课程管理界面添加职业路径对应模块、实验,完成之后点击保存即可。
职业路径管理列表展示界面
职业路径添加基本信息界面
3.2.4 项目路径管理功能
项目案例是综合平台技能知识点与实际项目案例结合制作完成。项目路径管理是管理包含项目的(批量)新增、(批量)删除、再编辑等操作。项目包含基本信息和课程管理两大模块,基本信息包括项目路径名称、路径简介、项目编号与项目图片;课程管理包含路径模块、章节、实验、考核知识点的编辑。通过前期学习大数据的基本概念和技术,大数据的背景、发展及关键技术,掌握Hadoop大数据平台搭建与基本应用,内容会涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等,最终完成学习大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统等

项目路径管理界面图

编辑基本信息界面图
编辑课程管理界面图
3.2.5 邮件系统配置管理功能
邮件系统配置是为了减轻管理端的任务负担,配置好邮件系统之后,学生在忘记登陆密码之后可以通过邮件找回密码。
3.2.6 实验内容管理功能
实验平台管理功能包含:实验管理、体系管理等功能。其中,用户可在实验管理功能中查看全部课程,并可对课程进行增、搜索、修改、删除管理;新增实验和已有实验涉及到的内容有实验基本信息,实验文档和虚拟机配置等。体管理是针对课程体系,可对实验体系、分类、模块、实验进行增加、修改和删除等管理。通过此功能,用户可以自己设置一些新的课件,以满足学校自定义需求。
体系管理列表界面图
实验管理列表界面图
3.2.7 算法集管理功能
算法集管理功能包含算法及管理与学科分类管理两大功能。算法集管理提供新增、删除再编辑等功能,新增算法时需要添加算法名称、配图、简介、所属学科、序号、算法内容,也可加入数据集,对算法再编辑时会显示原来版本算法。学科分类管理是指算法所属分类。大数据平台提供一些算法,学生可以在前台使用关键词进行搜索,完成搜索之后可以进行下载来使用。教师或管理端可以进行算法的修改、删除,也可以上传自己设计的算法,目前支持markdown在线编辑,也可以添加算法的一些附件,支持docx格式。本功能提供的一些算法,学生可以在此基础上进行修改,在平台上进行试验测试算法的优劣。
算法管理界面图

学科管理界面图
3.2.8 云平台管理功能
云平台管理功能包含对虚拟机镜像与容器镜像的管理。虚拟机和容器都可以提供虚拟操作环境,对比虚拟机来说,容器更加轻量级,是以容器可以满足需求都可以替代虚拟机。用户可以上传自己的虚拟机镜像,也可以对平台的镜像进行再编辑。红亚综合各方面因素,不断更新虚拟操作环境,带给用户更好体验。

虚拟机镜像管理界面图
容器镜像管理界面图
3.2.9 数据集管理功能
数据集管理功能提供本平台所有的数据,学生可以进行查看与实验,可以对学生能力进行考核,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等, 考察学生个人主动学习能力。
数据集管理界面图
3.2.10 资源监控管理功能
云资源管理功能是为用户提供虚拟化管理功能,包括资源监控中心和虚拟机资源管理。用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处的实验环境、创建位置、用户姓名、创建时间时间以及开启和关闭的状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。

内容资源统计界面图

虚拟化资源管理界面图
3.2.11 教学管理功能
教学管理功能主要帮助教师针对不同学习程度的同学制定相应的教学计划,该功能与教学监控功能相辅相成;教师通过对学生的学习的监控和数据采集和分析,根据真实数据制定相应的教学计划,对于教学根据针对性和定制化。
教师可通过管理后台选择教学计划管理功能,对教学计划列表的计划名称、计划简介、关联班级、关联任务进行增加和修改;其中简介可展示一些开课信息、作业安排等内容。教学计划内的具体任务安排可通过任务列表功能进行编辑,对实验平台内具体到每一个数据类型的实验项目进行选择增加,任务列表完成后对需要参加可课程安排的学生进行选择确认。该功能从对不同学生进行不同类型的针对性的课业安排的训练,达到了精准化个性化教学的目的。