一直以来,有太多的研究讲明,用户的社交媒体行为(他们发出的帖子、评论、点赞,以及小我私家特征、个性图片和照片)可以被用来分析其生活方式、小我私家素质、小我私家特征、甚至其心理康健状况的重要指标。好比,通太过析用户在 Facebook 上的点赞情况可以推断出他们的宗教信仰、性取向、小我私家品质和对生活的满足度等,博客文章充实展现了作者的个性,就连图片也是数字心理考试的重要工具。可是,一直以来却很少有人研究一些更为庞大的特征,好比学生的学术成就和学习结果。
克日,俄罗斯国家研究大学高等经济学院(HSE University)教育学院盘算社会科学实验室首席研究员 Ivan Smirnov 建设了一种盘算机模型,并凭据用户的社交媒体帖子,来区分高学历者与低学历者。该预测模型使用数学文天职析方法来记载用户的词汇(它的规模和所取观点的语义域)、字符和符号、帖子长度和单词长度。
在他的研究中,社交媒体帖子中的每个单词都具有差别的“排名”或者“分数”。好比,科学和文化主题、英文单词以及篇幅较长的单词和帖子可作为良勤学术体现的评判指标;而富厚的心情符号、使用大写字母书写的单词或短语,以及与星座、驾驶等相关的词汇则代着学生有较差的在校结果。
图 | 一般文本特征与学习结果的皮尔逊积矩相关系数(Pearson correlation coefficient)。(统计学中,这一系数用于怀抱两个变量之间的相关水平,其值介于 -1 与 1 之间,在自然科学领域中则广泛用于怀抱两个变量之间的线性相关水平。
)相关研究论文以“Estimating educational outcomes from students’ short texts on social media”为题,于今年 9 月在线揭晓在EPJ Data Science上。“我们试图凭据高中生和大学生在 VK(一个在线社交网络服务v网站)和 Twitter 上发出的帖子来预测他们的学习结果。
学习能力是一种很是庞大的人类特征,它不仅受性格特征的影响,也受心理康健的影响。遗憾的是,与公共领域可以获得的学术成就相比,教育机构内部却没有权衡后者的机制。” Smirnov 说。
准确率可高达93.7%一直以来,我们有这样的偏见:如果一个学生在社交媒体上揭晓关于量子、弦理论、牛顿和莎士比亚的文章,至少讲明他们有学习的动力,如果你去看这个学生的结果单,你可能会看到 A 和 B;如果一个学生经常发一些有关星座或车祸的帖子,而且其中有种种各样的拼写错误,那么他很可能不是一个特别优秀的学生。为了制止这种认知偏见泛起,最好用一些令人信服的数字来证明这一点。好比,用数学方法盘算出哪些单词可以成为讲明某个学生“更智慧”的指标。
可是,传统的研究方法(好比观察和访谈)很难确定青少年的种种各样的情况。由于这些研究方法通常包罗一些私人问题,青少年很可能会回避或不如实回覆。而数字数据却可以越发深入地相识他们,并展现他们生活中不为人知的一面。研究数据来自 4400 名到场国际学生能力评预计划(Programme for International Student Assessment)的高中生,其中有 3483 名学生对该研究开放了他们的 VK 帐户。
Smirnov 表现,由这些数据得出的结论也适用于大学生和中学生群体。研究人员使用来自 VK 的 130575 条帖子作为训练样本,用来评估学生的学术能力以及他们将知识应用于实践的能力。在建设和测试模型的历程中,只将学生的阅读结果用作判别学生学术能力的指标。PISA 结果分为 6 个品级,2 分为到达基本要求的最低水平,5-6 分为优秀水准。
研究人员在 VK 语料库(总计 19 亿个词,250 万个特殊词)运行词向量表现的无监视机械学习,并与一个更简朴的有监视机械学习模型(可以预测 PISA 分数)联合。“这些帖子被用来训练成一个线性回归模型,来预测帖子作者的 PISA 分数。” Smirnov说。研究人员将盘算预测效果与学生在 PISA 考试中获得的真实分数的相关性。
在初始阶段,该模型学习如何预测 PISA 数据,并在最终的模型中与高中结业生和大学新生的 USE 分数(每个学校的平均分数)举行对比。效果显示,对于 PISA 得分为 0-1 和 5-6 的学生,该模型的判别准确率到达了 93.7%。最终模型可以有效识别出一篇特定的社交媒体文章是出自于一个勤学生还是一个差学生。
模型很适用这一模型是否同样适用于其他社交媒体网站?如果不是在 VK 上发帖,而是让相同的用户在 twitter 上发推会怎样?图 | 该模型基于 VK 和 Twitter 数据的整体预测效果相似。研究效果显示,该模型的准确性并没有泛起显着的下降,这就意味着它可以被广泛应用。
好比,教育研究者对相识勤学校与普通学校的区别很感兴趣,但如果他们检察 USE 分数高的学校的特点,并不能告诉他们太多信息。“他们最悦目一下分数增长最快的学校。理论上,我们的方法可以用来权衡这种增长,然后在学校层面上研究与之相关的因素。
由于该模型不依赖于特定的语言、文原来源或目的变量,因此,它可以应用于种种各样的情况中。” Smirnov 说。参考:https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00245-8https://techxplore.com/news/2020-10-artificial-intelligence-students-outcomes-based.html。
本文关键词:威尼斯官方网址下载,研究,发现,社交,帖子,“,表示,”,了,你的
本文来源:威尼斯官方网址下载-www.sdjingmai.com