实验目的
面对当下数据“井喷”式的出现,大数据时代下数据采集成为各行业对数据处理的首要需求,对人才培养也提出了新要求。本项目秉承“以学生为中心”的理念,以“知行合一”为教学结果导向,培养学生主动发现、主动思考并解决Flume数据采集实践问题的能力,采用先进的虚拟现实技术实现对海量数据仿真采集,为学生获得实践、体验、评价的真实学习经历提供软硬件支持。
随着移动互联网、物联网的迅速发展,产生了大量网购数据、用户行为数据、物联网终端流数据等数据,要分析处理这些数据,首先要能采集到它们。Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单并将数据写人各种数据接收方的能力。用户可以使用Flume从网站、社交网络、云端等获数痞,并存储在HDFS或HBase中,供后期处理与分析。Flume作为实时日志收集系统,在企业中得到广泛应用。本实验结合本校学科与专业建设要求,凸显仿真环境专业特色,通过本虚拟仿真实验项目来解决以下4个挑战性问题:①突破成本制约实现体验式学习,让学生可以将头脑中的逻辑思维在虚拟世界中建构出来,知行合一,学会做事;②突破时空制约实现全过程学习,记录并保存每个学生实验设计全过程,为学生回顾和反思,提供过程数据基础;③突破现实制约实现多方案学习,采集数据时,不受IP限制与制约,可在任何时间与地点对数据进行采集;④突破传统教学制约实现创新型学习,让学生回归到学习活动的主体角色。
通过本仿真实验,帮助学生梳理大数据的知识体系,并可以让学生更好的理解大数据的理论知识。本仿真实验可以让学生亲身与“互动”,体验大数据技术所能解决的问题。通过实操接触大数据应用的技术,感知海量数据处理的过程,培养数据思维和动手能力,对理论知识的理解更加深入。培养学生用于探索的创新精神,提高动手能力,为以后专业课程的学习乃至未来走向大数据工作岗位打下坚实基础。
数据源头的采集与设计也是一个很重要的话题,传统数据的采集主要是由上层统计机构对调查表进行设计,然后基层的统计人员,按照调查表的说明进行填报并上报。如今数据量庞大,需要一整套解决方案,便催生了很多数据采集组件,本实验涉及的Flume便是很重要的采集组件,在数据采集与预处理过程中,具有很强的实用性。
①设立“虚拟仿真微试验”视频讲解。Flume数据采集实验的专业性强、知识点多,而且在Linux操作系统操作完成,为了能够使学习者能够快速熟悉虚拟仿真实验环境,系统提供“教学引导视频”,提高学生的预习与自学能力。
②连贯而系统的知识点理论学习。将Flume核心概念agent;agent里面包含3个核心组件:source、channel、sink;用于把数据发送到目的地的组件sink,目的地包括 hdfs、logger、avro、 thrift、ipc、file、 nul、 hbase、 solr、自定义。等多个知识点在实验操作中系统连贯的串起来,提升学习了效果。
③设立“自主式学习模式”应用于课堂实践教学与课程自学。强调学习自主化,学习者可以根据语音提示以及步骤引导,能够自主完成本虚拟实验内容。培养学生的观察分析能力。结合理论学习,加深学生对于数据采集原理的认识。
④设立“练习模式”,应用于课后实践活动。重实验操作步骤的准备,并通过流程进行操作引导,强调操作流程的规范性和重要性,如果实验操作未按正确流程则无法完成实验。
⑤项目注重持续改进和社会效应,实验信息与课后评价实时反馈。促进教学团队有的放矢地开展教学研究,不断提升教学学术能力。实验深入浅出、通俗易懂、互动性强,可以作为社会公众的安全知识科普教育的重要部分。
①已拥有完全自有知识产权。虚拟仿真是一种新的教育生产力,是推进“智能+教育”的创新性手段;Flume作为分布式、高可靠、高可用的海量日志采集、聚合、传输系统,支持在日志系统中定制各类数据发送方,用以采集数据,也提供对数据进行简单处理,并写到各种数据接收方的能力。可以说,Flume是实时采集日志的数据采集引擎。本项目已取得相应软件著作权。
②解决虚拟桌面动态分配问题及虚拟桌面启动速度问题。够仿真海量数据分布式处理的集群环境,使用虚拟化容器技术,解决虚拟桌面动态分配问题及虚拟桌面启动速度问题。能够极大提升硬件资源使用率。
③提供对真实商业脱敏数据的仿真使用。这些数据质量好,时效性高,数据类型丰富,并且与真实世界中的事件息息相关。以这种真实数据作为底层资源,可以有效帮助学习和科研者准确解释、合理预测现实事件的相关关系及过程逻辑,可以诠释数据的多样性,充分展示大数据魅力,具有很高的教学价值和科研价值。
总之,本仿真实验系统可以促进实践条件及资源建设、实验环境搭建等,并有利于建立健全仿真训练运行机制,打造丰富的教学、实验内容,整合共享区域性资源,以人才培养为主旨,支撑专业发展。