2012年,国外MOOC(massive open online course)兴起,2013年中国开始引入,给教学的模式带来了极大的冲击,传统教学中,学生的学习数据都在试卷、作业等纸上,或是教师课堂上的捕获,或是数据人为地录入电脑(如成绩的统计,学分的计算等)。随着网络的普及与发展,教学开始从课堂搬到网上,数据日趋丰富。教育也逐渐趋于量化,包括学习场景与过程的数据化,教育大数据的分析与可视化,智能化与个性化等等。由此,以大数据技术为基础的学习分析平台也相应而生。以下就国内外发展的现状做相关介绍。
国外现状
通过查阅多篇文献,可以发现,国外对学习分析平台的研究较多,在“学习行为分析”概念出现之前,与之相关的技术、工具及其应用研究已经开展起来。《学习分析工具比较研究》一文中总结了多种学习分析工具,所列出学习分析工具的发起者都来自于国外,文中提及的学习分析工具都需要人为提取数据到相关的工具或平台中使用。随着技术的发展与MOOC平台广泛的使用,真正结合教学平台的学习分析平台也开始出现。
2014年2月,哈佛大学与麻省理工学院推出了edX Insights交互式数据可视化工具。edX Insights平台从学习者类型、学习者特征和学习者学习行为等多个角度对教育数据进行挖掘并统计分析,并于同年5月开放数据供全球研究者使用,2014年8月,平台组织者在github(社交编程及代码托管网站)上对代码进行开源,供全球的开发者使用并提交代码。这是目前全球最知名的开源学习分析平台。
2014年5月,Coursera发展团队中国区业务负责人伊莱在《MOOCs如何改变高等教育》一文中提出,以数据为基础的教育能有效地帮助教学,Coursera平台记录学生的所有行为,行为数据可以直接通过平台展现出来,并且该数据对不同的教育问题都有一定的研究意义。另一篇文献《Engaging with Massive Online Courses》从Coursera平台中的开课数据记录分析不同的学生在学习过程中表现出的差异,并对如何提升课程论坛活跃度作出建议。
文献《慕课中的学习评价–以Coursera和Udacity为例》中,也提到Udacity做好习分析平台。Udacity较早于Coursera平台建立个人电子档案,并不断完善学习者的数据搜集与智能统计分析功能,这种电子档案的形式能够呈现出学习者在该教学平台上的经验,有助于学习者理清属于自己的学习发展脉络。
以上可以看出,国外几大著名MOOC平台包括edX、Coursera和Udacity都很关注数据对于教育的影响,也分别根据自身的平台特点设计与开发出学习分析平台。
国内现状
在学习分析平台的研究上,国内起步较晚,利用MOOC平台的数据研究较少。受惠于国外学习分析平台的研究基础,近些年国内分析平台发展很快,《MOOC学习者行为分析研究》一文详细地介绍了国内MOOC平台“爱课程”如何对学习者进行行为研究,目前“爱课程”平台主要对学习者的选课、退课、课程参与、成绩等几个方面进行统计分析;香港教育大学也建立为期三年、名为“开发及评估学习分析平台”的项目;国内另一发展较好的MOOC平台“学堂在线”的技术负责人在2016年由教育部组织的“在线开放课程建设与应用管理培训班”上也探讨了学堂在线学习分析平台的现状,该分析平台是基于开源的edX Insight的二次开发,在原有的基础上丰富了很多分析点,增加了国内地理分析、学生观看视频行为等更多的详细信息分析,加入了作业测试分析等等。此外,《基于“学习分析”技术的学习平台开发与应用研究》和《基于大数据技术的学习分析系统架构》等论文中,也都谈到了学习分析平台的架构与应用。
国内学习分析平台的发展日趋完善,多个MOOC教学平台基于国内教学背景,根据自身平台所面向客户的需求,开发出适合国人的学习分析平台。
综上所述,国外的对学习分析平台的研究早于国内,国内的多种技术由国外引进。由于国内外的教学背景不一样,所以分析的重点和数据的意义都不同、每个平台各自的侧重点与评价也不同,导致每个分析平台的分析模型略有差异。例如,国外对证书和论坛活跃度等数据较为关注,国内对退课和学生课堂中的行为等数据较为关注。本课题主要研究国外的开源edX Insights平台的相关技术来搭建定制化的分析平台,以满足校内教师和研究者来做相关研究的需要,并为他们提供技术支撑。
功能设计
学习分析平台总体功能
学习分析平台是在MOOC发展火热化及普遍使用的背景下开始提出的,MOOC产生的海量数据为学习分析提供了基础。提出学习分析平台的目的是在现有的学习资源的基础上,为教师提供在线的第二课堂及观摩平台,以适应教师与学生在信息社会下的学习行为特性,帮助教师提高教学效率及效果,帮助学生查找学科弱点提高学习成绩。无论是教师还是学生,研究者还是开发者,他们对于数据都是特别感兴趣的,教师关注学生在这门课程中的学习状态,课程内容是否可以改进;学生关注自己学习的成果与反馈数据;研究者希望这些数据能给他们的研究提供一定的支持,以期有新的发现;而开发者则对数据挖掘和可视化展示等感兴趣。
学习分析平台与教学平台相连,获取教学平台数据,分析教学平台上学习者类型、学习者特征以及学习者学习行为,并将这些数据可视化呈现。
在分析平台中,使用数据分析方法,主要从学习者类型分析、学习者特征分析、学习者行为分析三个方面对教学平台的使用者进行了研究,多维度展现学习者学习的实际情况。将这些数据能够以直观的形象呈现给各个领域的研究人员,以便提高教学效率和教学效果。
学习者类型分析
学习者分为四个类别:注册学习者、一般学习者、积极学习者、获得证书者等。
仅注册者:仅注册课程,但没有其他学习行为。
一般学习者:注册课程并访问了课程课件。
积极学习者:注册课程并访问了大于1/2的课件章节内容。
获取证书者:获得课程证书的学习者。如图1所示。通过这些数据可以看出平台真正使用的用户,可以看出哪些课程是真正被学习者所接受的等等。
学习者特征分析
学习者特征包含学习者的学历、年龄、性别以及学习者所在地。研究这些学习者的基本数据可以得出各种不同的结论,如:学习平台使用者主要集中的年龄段,使用者的学历水平,学习平台受欢迎的国家或地区,选择某一门课程的男生和女生的比例等等,这些都具有重要的研究意义。
学习者学习行为分析
学习者行为分析则是教师真正关心的数据,它包含了学生在一门课程中的所有行为,登录时长、视频播放次数、学习章节数以及论坛发帖数,这些数据能直接地反映出学习者的个性以及教学内容的安排,教学管理人员可以将这些结果用于预测教学并指导和调整教学,使课程更加个性化,满足不同学习者的需求。
学习分析平台技术架构
官方的edX insights从教学平台的tracking log中挖掘信息,读取教学平台的数据库,将这些信息统计分析后以可视化的效果呈现。作为一个独立的分析平台,edX insights包含三个部分:edx-analytics-pipeline,edx-analytics-data-api,edx-analytics-dashboard。
其中,Pipeline主要运用Hadoop和MapReduce技术,连接数据库,通过Mapper和Reducer导出数据;Data-api将数据导出,转换成JSON格式,并存入分析数据库;Dashboard连接数据,以图表的形式呈现统计结果。
学习分析平台关键技术
1.Hadoop MapReduce
edX平台大规模课程应用将产生海量数据,为学习分析与教育数据挖掘研究提供了基础。这些数据由于数据量大,数据种类丰富,且数据的产生是实时的,因此这些数据可称得上大数据。解决大数据最好的技术是Hadoop技术,Hadoop生态系统是大数据的基础。MapReduce是Hadoop生态系统中的一个重要的组件,Hadoop MapReduce也是解决大数据的一个重要技术,根据Apache Founction上对MapReduce的介绍,Hadoop MapReduce是一个软件框架,该框架能够编写应用程序,使这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。它包含Map函数和Reduce函数,Map函数主要负责从非结构化数据中提取相应的信息,并生成键-值对的新的表,Reduce函数获取Map函数的输出,最终生成开发者想要的表。
在edX Insights中,edx-analytics-pipeline主要运行于Hadoop MapReduce之上,负责日志的读取,并根据想要的形式输出正确的格式,是以task的形式运行。Pipeline已经成功的运行在Hadoop1.X和Hadoop2.X版本上(配置稍有不同)。
2.Hive
Hive是一个面向批处理的数据仓库层,它构建在Hadoop的核心元素HDFS和MapReduce之上,提供了一套轻量级SQL实现–HiveQL,可以通过SQL语句访问结构化数据,不同于绝大多数数据仓库,Hive的设计目的并不是快速响应查询。Hive更适合用来进行数据挖掘和深入分析等对实时性没有要求的,依赖于Hadoop基础,具有可扩展性、可伸缩性和弹性。
由于edX平台中产生的数据有很多为非结构化,Hive可以集成MapReduce脚本将这些数据提取转化加载为用户熟悉的格式,并可以通过SQL查询,同时也允许熟悉MapReduce的开发者自定义mapper函数和reducer函数来处理一些无法完成的复杂的分析工作。
3.Sqoop
edX教学平台与分析平台是两个独立的平台,两者使用的数据库不一样,edX Insights运行在Hadoop上,而edX教学平台不是,所以在统计分析 edX平台上的数据时,需要将edX中的数据转移到Hadoop上,Sqoop(SQL-to-Hadoop)就是这样一种能够从非Hadoop数据存储中提取数据,然后将数据转化为Hadoop可用的数据,并将其装载到HDFS中的工具。将数据转入Hadoop是使用MapReduce处理数据的重要步骤,在edX Insights中,是将数据从edX平台中转入Insights中,并用Hive对数据进行读取分析。Sqoop对MapReduce和HDFS等都有较高的依赖性。
综上所述,Insights分析平台通过一定的配置连接到edX教学平台,使用Oauth2.0协议通过认证登录,与教学平台使用相同的用户数据库认证登录,认证成功之后,显示用户登录信息和用户相关的课程信息。Pipeline是运行在Hadoop集群之上,通过一定的配置,读取教学平台的用户信息、课程信息和事件日志,根据数据报表需求,运用MapReduce等技术导出数据,最后得到分析之后的数据库;Data-API通过API接口查看统计好的数据;Dashboard主要从3个方面以图表的形式呈现学生的整体分布和学生的学习情况。
教学平台上数据库中的数据能实时读取且正确地显示在分析平台中,分析日志数据是分析平台的重要任务,Pipeline起到了关键的角色,每天都有固定的时间从LMS端读取当天的日志信息,然后在Hadoop上运行task对日志进行分析统计,得到分析好之后的最新数据,写入数据库。
学习分析平台的应用
edX Insights平台是一个较独立的平台,虽然是为edX平台开发,也可以用于其他教学平台。用于其他教学平台还需要在认证登录和日志上做一定的修改与匹配。
本案例中分析平台是连接了校内定制化后的edX教学平台。由于校内edX教学平台上数据的限制,目前只统计分析了学习者特征和学习者行为的一部分。
学习分析平台与学习平台的对接
在edX Insight平台点击登录之后,会跳转到edX教学平台的登录界面,用edX CMS的账号和密码点击登录成功以后,会跳转到edX Insight平台,并显示用户对应的课程的相关信息。所列出的课程为登录账号的教师所教的课程的列表,课程列表的信息格式为:课程组织/课程代码/开课时间。
学习者特征分析的应用
学习者特征包括学习者年龄、教育程度、性别和地理位置。
基于年龄的统计如图2所示,横坐标表示课程中学习者的年龄,纵坐标表示年龄的人数,图中可以看出,这门课的学习者年龄主要分布在25周岁以下,且选修这门课的人数较少。因此可以得出这门课的主要面向对象以及开设的范围和必要性。
基于教育程度的统计如图3所示,横坐标表示教育的程度,如无教育程度、小学、初中、高中、准学士、学士、硕士、博士和其他等等,纵坐标表示所占的比例。图中,选修这门课的学习者中,50%学历为高中,50%学历为准学士。由这些数据,可以得出这门课程的面向对象为大学生或准备就读大学的高中生。如果教师预先设定的教学对象仅仅为在读的大学生,通过这个统计结果发现还会有高中生选修,那么教师可以在预备知识中增加基础知识,更多地照顾到高中生,为他们提供更好的学习体验。
基于性别的统计如图4所示,横坐标表示男生、女生或者其他,纵坐标表示所占的比例。图中,选修这门课女生的比例明显多于男生比例,可以考虑此门课程为艺术类课程或者此门课程开设范围为师范类学校,而师范类学校的特征是女生比例高于男生。教师在研究男女的比例后可以根据他们的特性适当地调整课程,以达到更好的教学效果。研究者可以从这些数据中得出男女使用在线教学平台的爱好。
基于地理位置的统计如图5所示,从地图中可以很直观地看到选修这门课的学习者来自于哪个国家,哪个国家使用者较活跃,哪些地区使用的人更多等等。教师可以利用这些数据,并依据不同的国情来微调课程,研究者可以利用这些数据来分析每个国家在线教学的发展程度等等。
学习者行为分析的应用
学习者行为包括学习者的注册情况、学生参与度与活跃度、学习者在一门课程中回答问题的统计分析等。
每门课中每日学生选课数如图6所示,横坐标表示日期,纵坐标表示选课学生的数量。图中,3月31日选课的学生为5人,且过去一周选课数无变化。此数据可能跟课程截止日期有关,也可评价出课程对选修者的吸引程度等,或者更多的意义等待研究。
学生每周对课程的投入程度如图7所示,图中横坐标表示日期,纵坐标表示人数。一共有三条线,紫色线表示这门课程中每天活跃的学生,绿色线表示每天观看的视频数,橙色线表示每天回答的问题。这三条线详细地记录了一门课中学生的活动信息。例如在5月13日到6月5日这一周中,活跃的学生有642人,一共观看了441个视频,尝试回答了590个问题。教师通过这些数据可以判断学生的活跃程度和学习进度,并根据学习进度来调整学习内容,如果一周中观看视频很少,学生活跃数也很少,那么教师可以推断,这一周学生是否过于繁忙,适时地将课程延期。
行为分析应用的研究展望
基于数据的教育对提高教学效率和教学效果有着极大的影响力,这些数据的统计和分析为教学者和研究者提供了宝贵的资源。这些数据的统计存在的问题包括:
1.缺少对学习者的选课和退课情况的统计,缺少对学习者完成课程的情况进行统计,这样难以统计出学习者在一门课程中的学习类型;
2.统计了详细的学生信息,但仍缺少投入的时间、点击量、作业测试等详细的数据,因此还无法对学生的学习进度、学习交互等进行深入分析;3.edX Insights来自国外,但是国内开发使用,基本的面向对象为国内,其地理信息的统计缺少国内城市的统计,不能对地理信息进行分析;
4.分析模型来自国外,缺少国内教育背景下的分析模型。
未来,我们会增加这些详细信息的统计,为学习分析提供更加可靠的数据,并对学习分析作出一定的调研,研究出适合的分析模型。而在教育技术不断发展的时代,我们在技术的算法和分析上还需更深入的研究。
通过学习分析平台在edX教学平台上的应用,可以看到分析平台运行时相应的数据流方向如下:学习者与教学平台交互产生各种数据;这些数据依照特定的规则进行必要的记录;根据数据挖掘和分析模型提炼出需要分析的数据;可视化地展现出分析好的数据;最后,得出分析的结论给需要的用户。平台上,教师可以根据事先定制好的模型对学生的数据进行分析,操作简单方便,结论更加直观。