随着大流行的爆发,未达到最低阅读水平的儿童数量呈指数增长。这推动了预测文本可读性的研究,因为在设备上阅读已经取代了传统形式。评估阅读交互关于读者如何滚动阅读文本的潜力可以深入了解阅读特定文本时的理解水平。这种参数评估对于为低水平读者和新语言学习者设计教育应用程序很重要。
谷歌在 CoNLL 2021 上的演讲提供了 518 名参与者的调查结果,以调查滚动行为与文本可读性之间的关系。通过开源数据集,研究表明,根据文本级别,读者与文本的交互方式存在很大差异。这些措施可用于预测文本可读性、影响阅读交互的读者背景以及增加文本难度的因素。
该研究最具挑战性的方面之一是分析哪些滚动行为受文本复杂性的影响最大。在阅读多个文本的每个参与者和阅读相同文本的多个参与者的多个测量点上使用线性混合效应模型。该模型得出结论,读者交互的差异取决于文本的复杂性,而忽略了其他随机效应。当添加速度、加速度和回归作为机器学习算法的输入时,支持向量机会根据读者的滚动模式预测文本是高级的还是初级的。分析模型准确性的指标是使用 f-score 完成的,1.0 反映了完美的分类准确性。使用交互特征预测可读性的 f 分数的初始结果为 0。
为了提高可读性模型, 更多交互功能包括在内,这将该模型的 f 分数从 0.84 提高到 0.88。除此之外,该模型可以通过使用将 f 分数提高到 0.96 的词汇特征来显着优于系统。但重要的是要真正询问参与者对他们所读内容的理解程度。滚动行为的交互特征表示为高维向量,并且使用 t 分布的随机邻居嵌入绘制每个参与者的数据。t-SNE 是一种可视化高维数据的统计方法。该图显示了二维滚动交互的 t-SNE 投影。图上的颜色表示可以评估的理解分数。
在统计模型之后,研究延伸到了解不同受众之间的阅读互动。比较是在平均滚动速度和读者的第一语言之间进行的。可以清楚地看到,速度分布随着观众的熟练程度和第一语言而变化。由此得出结论,第一语言和熟练程度可以影响受众的阅读行为。直方图上的线条显示了每组的趋势。较高的平均滚动速度表明较快的阅读时间,这意味着复杂的文本对应于高级读者较慢的滚动速度,这与初学者在表面上与文本交互时较高的滚动速度相关。
这标志着第一项研究表明阅读交互(滚动行为)可用于预测文本可读性。
审核编辑:郭婷
-
机器学习
+关注
关注
66文章
8424浏览量
132765
发布评论请先 登录
相关推荐
评论