人工智能时代教育研究的死亡与重生：问题与前景

来源：华东师范大学学报教育科学版作者: 赵勇尼尔·金斯顿里克·金斯伯格已有0人评论 2026/3/12 10:15:20 加入收藏

摘要：在生成式人工智能迅速发展的背景下，教育研究正面临深刻的认识论与方法论危机。传统教育研究长期受到若干结构性问题困扰，包括同行评审质量不稳、量化偏见及其带来的虚假精确性、定量与定性范式之争、跨情境过度推论、忽视学习者个体差异、以典型性假设主导研究想象，以及对教育成果的狭隘定义，等等。这些问题限制了教育研究的解释力、相关性与实际影响力。人工智能的出现不仅加剧了既有挑战，也带来了新的复杂性：AI技术迭代速度远超研究周期，使教育干预难以保持稳定；AI改变了“什么值得学习”的根本问题；人机协作学习情境的兴起要求研究者采用复杂性理论和分布式认知视角；教育研究必须面对监控、偏见与不平等等社会技术议题。同时，AI正在重塑文献综述、研究设计和知识生产本身，促使教育研究从关注因果链转向理解动态系统，从以人为中心的解释转向人机共生的认识论。本研究指出，教育研究需要从现有范式的局限中走出，发展更具适应性、参与性、多元性和面向未来的方法论框架，实现教育研究的“重生”。唯有如此，教育研究才能在AI时代保持其科学性、伦理性与社会价值。

一、引言

2023年，超过200万篇期刊文章在30,000种同行评审期刊上发表（Zul, 2023）。虽然其中关于教育及相关领域的文章数量并未公布，但《博士学位获得者调查》显示，2022年在美国，教育领域共授予了4,000个研究型博士学位，而所有领域的总数为57,596个，这占所有博士学位的7%。如果将这个数字应用于已发表的同行评审期刊文章总数，可以估计教育领域发表了约140,000篇文章。然而，尽管研究数量巨大，但其对教育政策、教育实践或学生学习的普遍改善似乎并未产生相应的影响。

关于研究对政策和实践缺乏影响的抱怨，同样来自政策制定者、实践者和研究人员。对教育研究问题的审视有着悠久的传统（Lagemann, 2002, 2008; Lagemann & Shulman, 1999）。关于使用随机对照试验（RCTs）使教育研究更科学的辩论曾非常激烈（Berliner, 2002），但转向更多使用RCTs的量化研究并未使教育研究更具影响力。教育成果的复杂性以及教育干预（无论是政策还是实践）的各种副作用，都为教育研究的效度、信度和普适性增添了更多不确定性（Zhao, 2017, 2018; Zhao & Beghetto, 2024）。

近年来，生成式人工智能的出现和快速发展为教育研究带来了挑战和机遇。它可能重新定义教育成果、组织乃至整个学校教育生态系统，从而导致教育领域的范式转变（Kuhn, 1962；Zhao 2024; Zhao & Zhong, 2024; Zhong & Zhao, 2025）。这种范式转变必然需要一种不同类型的研究，或一种新的研究实践设计和模型，以催生新的理论、实践和政策。

在本文中，我们讨论了教育研究中的问题与挑战。我们的讨论涵盖了在近期生成式人工智能工具出现之前教育研究中存在的问题，并特别关注了由人工智能带来的或减少的新挑战。

二、传统研究中的问题

问题1：同行评审的问题

合格的评审员，通常被称为“同行”，通过评估文稿来维护科学出版物的质量和诚信。教育领域的期刊和会议广泛采用了这一传统，严重依赖同行评审来维持学术标准。同行评审目前被视为科学事业的基石，但它实际上是一个相对较新的现象。牛顿、伽利略、爱因斯坦、沃森（James Watson）和克里克（Francis Crick）的研究成果并未经过同行评审（Aczel et al., 2025），因为现代同行评审始于20世纪中期，而这个术语本身是在20世纪70年代才被创造出来（Wills, 2024）。不足为奇的是，作为一个对研究人员至关重要的话题，已有大量文章指出了同行评审存在的问题。Aczel et al.（2025）确定了四类问题：（1）质量问题，（2）掠夺性期刊问题，（3）偏见问题，以及（4）低可靠性问题。

根据Aczel et al.（2025）的观点，与质量相关的担忧（括号中为潜在的解决方案示例）包括：缺乏合格的评审员（提供评审员培训）、根本没有评审员（提供报酬）、审查不充分（使用更多评审员），以及需要具有特定专业领域的评审员（签署评审意见，以便读者了解评审员的专业背景）。虽然关于掠夺性期刊的担忧被单独列出，但这主要是一个质量问题，即评审可能根本不存在或只是形式上存在。

数据显示，超过70%的学者会拒绝审稿邀请，主要原因是稿件与他们的专业领域不符。此外，约42%的学者因繁重的专业任务而感到不堪重负，约39%的学者表示在进行同行评审方面缺乏正式培训（HighWire, 2023）。

评审员疲劳是导致同行评审资源短缺的另一个关键因素。在科学研究领域中，只有一小部分专业人员会定期承担评审责任，这常常导致他们过度承诺。尽管这些学者承认同行评审是一项至关重要的专业职责，但长期过度的评审任务常常导致职业倦怠，从而降低了他们参与同行评审过程的意愿和效率（Tropini et al., 2023）。

Aczel et al.（2025, p. 2, Table 1）指出，偏见可能与“作者、主题、方法、团体、机构、国家、论点或观点”有关。有趣的是，解决这些偏见的潜在方法范围很广，从双盲评审到其对立面——开放、透明甚至署名的评审。

文化偏见和语言障碍进一步使同行评审复杂化。随着英语作为科学交流通用语言的主导地位，来自非英语国家（如中国，其已迅速成为全球科学文献的重要贡献者）的研究人员，常常难以有效参与英语稿件的评审工作。反之，讲英语的研究人员通常缺乏评估以中文等语言提交稿件所需的语言技能和文化熟悉度（Grabarić Andonovski et al., 2019; Publons, 2018）。

缺乏足够合格的同行评审员损害了同行评审的根本目的。让不合格的评审员参与会增加拒绝有价值论文或接受不合格稿件的风险。即使是合格的评审员也可能偶尔未能识别出创新性或突破性的研究，无意中拒绝了具有变革潜力的工作。这些结果凸显了同行评审过程中固有的局限性，质疑其作为科学质量保证最佳机制的有效性，并可能阻碍重大的科学进步（Tennant & Ross-Hellauer, 2020）。

Aczel et al.（2025）关注低可靠性问题，强调了评审员之间有限的一致性和频繁的分歧（“将修改重点放在评审员意见一致的地方”），以及缺乏如何改进同行评审的证据（对同行评审过程本身进行研究）。在一项基于48项不同研究的70个可靠性系数的元分析中，Bornmann et al.（2010）发现，同行评审过程的加权平均评估者间信度为0.34，相应的科恩系数（Cohen's Kappa）为0.17。在一篇复制美国国立卫生研究院（NIH）同行评审过程的文章中，Pier et al.（2018）召集了43名研究人员，让他们评审了25份真实的NIH肿瘤学基金申请。他们计算了组内相关系数和克里彭多夫阿尔法系数（Krippendorff's Alpha），并得出结论：“评审员之间没有达成一致。”

Lotriet（2012）指出同行评审过程的缓慢是一个重要问题。Huisman & Smits（2017）认为这个问题在某些学科中可能更严重。尽管可能有些过时，Karieva et al.（2012）的研究显示，在保护和应用生态学期刊上，从初次投稿到发表的平均时间为572天，而在遗传学和进化论期刊上则为249天。Huisman & Smits（2017）发现，在社会科学领域（包括教育学，但不包括有自己分类的心理学），同行评审过程平均需要23周，在10个学科中是第二慢的（仅次于经济学和商学）。虽然电子期刊的表现更好，但整个过程仍然缓慢。

因此，常被视为学术研究发表必要条件的同行评审充满了问题，需要进行某种形式的改革。近年来开放期刊的增长在发表速度方面提供了一些缓解，但开放作品内容的缺乏或肤浅的评审，使得这个过程在某种程度上等同于简单地在线发布手稿。

问题2：脱离背景的量化是暴政

喜剧演员史蒂文·赖特（Steven Wright）以其单口相声而闻名，其中一句是：“43.7%的统计数据都是现场编造的。”这个笑话同时指出了看似精确的数字所具有的力量，并警示这种力量很容易被滥用或误解。教育研究面临同样的问题，只是我们称之为量化偏见！在考虑虚假精确性的暴政之前，我们应先思考教育研究背后的一般认识论背景，以及它如何特别地应用于量化研究。研究方法论的主导认识论基础，尤其是在教育领域，被称为后实证主义。正如作为后实证主义创始人之一的卡尔·波普尔（Popper,1935, 1959）所说：“……所有知识都是临时的、推测的、假设的——我们永远无法最终证明我们的科学理论，我们只能（暂时地）证实或（最终地）反驳它们……”。

许多教育研究，特别是受政策制定者青睐的量化研究，严重依赖概率和统计程序来检验教育干预的效果。Gerd Gigerenzer在其开创性的批判性著作《无意识的统计学》中，指出了零假设显著性检验（NHST）的广泛误解和误用，这在教育研究中是一种普遍的做法（Gigerenzer, 2004）。Gigerenzer认为，许多研究人员常常将p值解释为研究结果真实性或重要性的最终证明，从而滥用NHST。这种滥用常常表现为强调结果是否达到统计学显著性，例如超过像p <0.05或p <0.01这样的武断阈值，而忽略了考虑这些结果是否具有实际的教育意义或相关性。

置信区间提供了与NHST基础相同的信息，但其呈现方式更符合后实证主义。置信区间给出了真实值可能存在的范围。更好的研究和更优的统计模型可以缩小置信区间，但无法将其缩减为零。通过强调不确定性，置信区间减少了量化偏见。

研究人员经常忽视或误解其他重要的方法论考量，如效应量、统计功效以及验证研究结果所需的重复性。因此，教育研究人员常常提出夸大或言过其实的关于治疗效果的主张，而这些研究在统计上功效不足或基于相对较小的样本。

这些滥用的影响从学术界延伸到教育决策领域，统计结果常常被视为确定且普遍适用的，尽管它们具有固有的概率性和情境依赖性。决策者经常倡导所谓的“循证或基于实证”的教育改革，这些改革基于普遍化的研究结果，却未充分考虑地方差异、文化差异或实施过程中的实际复杂性（Zhao, 2020）。例如，像国际学生评估项目（PISA）这样的大型国际评估，常常催生由微小的统计差异驱动的全面教育改革，而忽视了实质性的情境多样性和实际的实施挑战。

对量化数据呈现的过度依赖进一步加剧了上述的量化偏见。教育领域量化偏见的其他表现形式包括基于增值模型（VAMs）的教师评估等做法。这些模型应用统计程序来估算教师对学生学习成果的贡献，尽管其计算中存在相当大的不稳定性和概率性不确定性。同样，教育系统常常过分强调考试分数的变化，而忽略了对学生全面成长至关重要的更广泛的发展性或社会性成果。

教育研究中基于概率的方法的一个根本局限在于它们无法可靠地预测或充分地解释个体层面的特征。虽然概率方法可能揭示群体层面的趋势，但它们无法捕捉到学生群体中固有的个体差异。在群体层面显示出显著统计效应的教育干预，在个体层面可能会产生高度异质性的结果。这类干预可能对一些学生有益，对另一些学生无效，甚至对其他一些学生可能有害（Zhao, 2018; Zhao & Beghetto, 2024）。这种固有的多样性强调了谨慎解释统计发现的重要性，并表明在教育研究和政策制定中需要更加细致的、个体化的和情境敏感的方法。可悲的是，正如Trout（2002）观察到的，人们倾向于相信结论或解释，不是因为它们准确，而是因为它们直观上令人满意。

问题3：言过其实的研究范式之争

教育研究中另一个持续存在的挑战和持续的冲突，通常被称为“范式之争”，这个术语由Gage（1989）首次提出，用以描述该领域根深蒂固的方法论分歧。这些冲突主要围绕定量和定性研究范式展开，每一方都坚定地倡导其方法论的严谨性和认识论的优越性，同时大力批判对方被认为的缺点（Gage, 1989）。这种方法论上的分裂有着深厚的历史根源，并深刻地影响了教育领域的学术话语、政策制定和研究实践。

2002年《不让一个孩子掉队法案》的颁布是加剧这些方法论分歧的一个显著立法影响。该法案明确偏爱定量方法，特别是随机对照试验（RCTs），并正式将其指定为教育研究的“黄金标准”（No Child Left Behind Act of 2001）。这一立法上的认可显著提升了定量方法的地位，使其在教育政策和资金决策中享有特权地位，从而边缘化了定性研究方法。然而，倡导解释性和批判性范式的定性方法学家和研究人员强烈抵制这种边缘化。他们对定量方法固有的局限性提出了有力的批判，认为教育现象的复杂性无法完全通过纯粹的统计分析或对照实验来捕捉（Biesta, 2007）。McCloskey & Ziliak（2010）等人强调了定量研究侧重，特别是过度依赖统计显著性而未充分考虑实际相关性和情境理解的批判性认识论和伦理缺陷。

不幸的是，范式之争在教育研究领域造成了持久的裂痕，将学术界分裂为对立的方法论阵营。这些根深蒂固的分歧阻碍了跨研究方法的有意义的对话、合作和综合，从而妨碍了教育知识和实践的进步（Zhao, 2018）。这种分裂的负面后果与在类似的两极分化的教育辩论中所观察到的相似，例如所谓的阅读和数学战争。在这些充满争议的争论中，根深蒂固的意识形态立场常常掩盖了细致入微的、综合性的解决方案，并使冲突永久化而不是解决它们（Ginsberg & Zhao, 2025; Zhao, 2024）。值得注意的是，其他领域也曾与同样的争议作斗争。例如，在政治学领域，美国政治科学协会将此标记为“改革运动”（Perestroika），并得出结论，该运动“提醒了形式和定量方法的实践者，定性方法和区域研究也对政治学研究和教学做出了贡献，不应在专业中被低估”（Rigger, 2009）。

为了使教育研究能够建设性地、有意义地发展，学者们必须积极超越这些根深蒂固的方法论分歧。拥抱方法论多元主义——一种承认定量和定性范式互补优势与内在局限性的方法——将使研究人员能够更全面地理解复杂的教育现象。这种多元主义促进了批判性的方法论反思，鼓励了综合性对话，并最终有助于形成更丰富、更全面的研究见解，从而能够有效地为教育实践和政策提供信息。

问题4：跨情境的过度概括

教育研究中的一个关键问题是对教育情境统一性的假设。这个假设错误地简化了教育环境中固有的复杂性和多样性。虽然不可否认存在某些普遍原则和共性，但教育情境间的差异——包括文化细微性、地方社会经济条件、政治框架、教学理念、治理结构、组织实践和师生比例——是巨大的（Cohen & Spillane, 1992; Crossley & Watson, 2003）。尽管存在这种差异，教育研究人员一旦达到统计显著性，就常常将从单一或有限情境中得出的结论普遍化，假设其在不同环境中具有代表性（Berliner, 2002; Biesta, 2010）。这种做法忽略了学校和教室之间存在的深刻差异，而这些差异显著地塑造了教育过程和结果（Phillips & Schweisfurth, 2014）。这种疏忽可能会导致强加在一种情境下可能有效，但在另一种情境下却有害或无关紧要的教育干预和政策，从而导致教育改革的适用性存疑和有效性降低（Zhao, 2018）。因此，在研究设计和解释中承认教育情境的多样性至关重要，因为它能增强教育研究的生态效度和情境敏感性，从而更好地支持与情境相适应的教育创新和改进（Lincoln & Guba, 1985; Stake, 2005）。

此外，教育情境是动态的，会因政策、教师倡议、学生能动性、技术进步和社区参与而发生变化。因此，没有哪个教育环境是永久固定的，每个环境都可以通过深思熟虑的努力和创新随时间演变（Cuban, 2013; Fullan, 2007）。因此，教育研究者不仅应认识到现存的变异性，还应预见并适应这些情境中可能发生的变化。采取这种方法要求研究者采用灵活的方法论，考虑未来的可能性，从而营造一个有利于适应性和前瞻性教育研究的环境（Darling-Hammond, 2010; Yin, 2017）。

在教育研究中，普遍的假设一直是教育干预——无论是政策还是课堂实践——都足够稳定，能够产生可以跨不同情境和时间框架可靠推广的见解。这一假设支撑了许多国际比较研究和政策借鉴，例如PISA倡议。PISA鼓励世界各地的政策制定者和教育工作者复制芬兰和新加坡等高绩效系统的教育策略，假定这些策略的效力既稳定又可转移（OECD, 2016; Sellar & Lingard, 2013）。然而，这种假设忽略了关键的情境和历史细微差别，因为芬兰和新加坡等国观察到的高成就水平，是几十年前在截然不同的社会、经济和技术条件下制定的特定政策和实践的结果（Sahlberg, 2015; Tan & Dimmock, 2014）。因此，借鉴这些教育实践，实际上是默认教育情境保持静态，而这很少是事实（Zhao, 2020）。

问题5：对个体多样性的忽视

个体学习者的多样性是教育研究中另一个关键但常被忽视的维度。学习者并非整齐划一；相反，他们展现出独特的先天能力、兴趣、文化背景、经验和抱负。加德纳（Gardner, 1983; Gardner & Hatch, 1989）提出的多元智能理论强调了个体拥有的不同智力潜能和优势。此外，每个学习者的个性特征显著影响其学习过程和成果（John et al., 2008）。赖斯（Reiss, 2000, 2004）另外强调了驱动学生参与和学业成就的各种动机和愿望。此外，学生的背景，包括他们的家庭、社区和地理环境，都极大地影响着他们的学习轨迹。这些因素与固有的生物学和心理倾向动态地相互作用，促成了独特的学生档案，每个档案都具有特定的优势和挑战（Lewontin, 2001; Ridley, 2003）。哈奇（Hatch, 1997）进一步强调，当进入教育环境时，每个学生都带来了源于他们生活经历的独特专业知识，尽管同时也伴随着特定的限制或挑战。

鉴于这种固有的复杂性，将研究结果推广到不同学生群体的教育研究可能会导致误导性的结论和实践。在群体层面上被认为是有效的教育干预和政策，如果不考虑个体差异而普遍应用，可能会惨遭失败。因此，当代教育研究越来越承认学习者本质上是“双重特殊”的——在某些领域有天赋，但在其他领域面临挑战——这突显了在教育中采用个性化方法的必要性（Foley Nicpon et al., 2011; Reis et al., 2014; Ronksley-Pavia, 2015; Trail, 2021; Zhao et al., 2022）。这种观点要求转向更细致的教育实践，敦促教育工作者和政策制定者在个体学习者档案的背景下考虑研究结果。

问题6：典型心态与可能性心态的对立

传统上，教育研究倾向于识别适用于不同人群（包括学生、教师、管理者和家庭）在各种教育背景下的普适性原则和通用法则（Berliner, 2002; Shavelson & Towne, 2002）。这种对典型和规范的关注，促进了旨在广泛应用的标准化评估、通用课程和政策处方的扩散（Zhao, 2018）。尽管这些努力无疑为教育现象带来了重要的见解，但它们通过优先考虑统一性而非可能性，同时限制了教育想象力的概念边界。

教育研究中占主导地位的方法论范式，在很大程度上受到后实证主义传统的影响，强调可复制性、可预测性和普适性（Phillips & Burbules, 2000）。这种范式内在地限制了对教育可能性的探索，并削弱了对能够启发独特教育愿景和实践的情境特定创新的关注。因此，研究倾向于忽视或低估那些偏离规范期望的教育实验和情景，从而有效地边缘化了富有想象力的替代方案和潜在的变革（Biesta, 2010）。

然而，教育的潜力——它对特定个人、学校或教室可能实现或成为什么——正是想象力和创新的所在（Greene, 1995）。一个强大的教育想象力需要对多样化的教育成果持开放态度，接受复杂性，并愿意拥抱不确定性和可变性（Eisner, 2002）。通过扩展方法论和认识论框架，纳入思辨性、解释性和想象性的方法，教育研究不仅能够解决教育中典型的或规性范的问题，还可以发掘其中可能的、理想的和变革性的力量（Barone & Eisner, 2012）。确实，将重点从研究典型转向构想可能，需要扩展研究方法，以涵盖叙事探究、基于设计的研究和未来研究（Clandinin & Connelly, 2000; McKenney & Reeves, 2018; Slaughter, 2002）。这些方法邀请研究人员想象创新的教育轨迹，探索不确定的未来，并考虑多种教育可能性，而不是预定的结果。

总之，教育研究必须通过拥抱方法论的多元主义和概念的灵活性来刻意培养想象力。只有这样，研究才能有效地阐明和激发多样化的教育可能性，这对于应对快速变化的世界中学习者和社区不断发展的需求至关重要。

问题7：教育成果的多重性与冲突性

教育研究常常受困于对单一、通常是量化结果的过分狭隘关注——主要是学业考试分数，而忽视了教育成果的多重性和复杂性。长期的范式冲突，例如阅读和数学战争中的例子，正是因为研究人员和政策制定者固执于孤立的有效性衡量标准，而忽略了更广泛的认知和非认知、短期和长期的教育成果（Berliner & Glass, 2014; Biesta, 2009; Ravitch, 2016）。将标准化考试分数作为教育成功最终证据的倾向，不仅限制了理解，也使相互竞争的教育方法论之间的激烈辩论永久化（Koretz, 2017）。

赵勇（Zhao, 2018, 2022）强调，专注于特定成果不可避免地会掩盖其他重要影响——他称之为教育的“副作用”。根据赵勇的说法，教育干预，特别是那些旨在提高标准化考试成绩的干预，常常产生意想不到的负面后果，包括创造力下降、学生参与度降低、焦虑增加以及社会情感福祉受损（Zhao, 2018; Zhao & Gearin, 2018）。赵勇的批评与更广泛的学术共识一致，即稳健的教育评估必须包含多样的学生发展衡量标准，捕捉认知以及社会情感、心理和伦理维度（Duckworth & Yeager, 2015; Heckman & Kautz, 2012）。

结果驱动的教育研究中固有的短视导致了碎片化和两极分化的话语，这在围绕读写和数学教育的持续“战争”中得到了生动的体现。这类辩论常常让语音教学法的倡导者与全语言教学法的倡导者对立，或者程序化数学与概念性理解对立，每一方都在其狭隘的框架内强调有利的结果（Hanford, 2019; Schoenfeld, 2004）。研究人员很少探讨他们所青睐的干预措施可能同时在其直接评估范围之外的领域产生不利影响的可能性。因此，全面的教育研究需要有意识地转向多维评估，促进教育利益相关者之间更大程度的合作和对话，并缓解由简化评估所固化的根深蒂固的分歧（Biesta, 2020; Zhao, 2018）。

最终，认识到教育成果的复杂性和多样性对于超越简化论范式，促进更具综合性、细致入微的教育实践至关重要。赵勇呼吁将教育干预所产生的副作用视为合理的成果，并对其展开系统性研究。这是一种关键的方法论调整，它不仅可以改变教育研究和实践，还能减少长期的理论和方法论层面的冲突（Zhao, 2018, 2022）。

三、人工智能对教育研究的挑战

人工智能（AI）已经存在了几十年，但大型语言模型（如OpenAI的ChatGPT）以及虚拟现实等其他新兴技术的出现，将极大地影响劳动力问题、经济体系、商业、教育、医疗保健以及几乎所有领域，全球范围内的个人生活方式和整个社会都将受到影响。特别是在教育领域，根据创新、设计与数字学习中心的一份报告，“人工智能有潜力通过个性化教育、行政效率和创新来彻底改变教与学……”（Center for Innovation, Design, and Digital Learning, 2024, p. 1）。在高等教育中，使用人工智能的创新教学实践正在多个领域涌现（例如，可参见Mollick & Mollick, 2024）。在研究方面，美国心理学会（Huff, 2024）阐述了人工智能可以并将可能支持研究的多种方式，并指出了需要考虑的各种危险。最近一项关于在工程研究中使用人工智能的研究得出结论：“从文献检索、数据分析，到写作辅助与协同合作，人工智能工具正让研究工作变得更高效、更精准、更具协作性。”（Madanchian & Taherdoostp, 2025, p. 9）。人工智能为研究人员提供了重要的计算能力，并在数据处理与分析方面为其提供协助（Papaspyridis, 2020）。Dhawan & Batra（2021）报告说，人工智能帮助研究人员完成调查问卷的设计与分析工作。

然而，伴随着这些潜力而来的是，人工智能的兴起也让研究人员面临着诸多明确的挑战。人工智能领域发展态势活跃，技术更新迭代迅速，不仅存在数据生成幻觉的隐患，还衍生出一系列伦理问题。接下来将审视人工智能为教育研究带来的一系列问题。

1. 稳定干预的危机

教育固有的复杂性和情境依赖性，由于人工智能（AI）的快速发展而变得更加严重。AI持续融入教育环境，不断改变着教育干预的性质和效果。由于AI技术的进步速度往往远超传统的研究发表周期，因此采用了AI工具的教学方法和教育干预措施很容易过时（Luckin & Cukurova, 2019; Selwyn, Hillman, Bergviken Rensfeldt, & Perrotta, 2023）。随着AI工具以极快的速度（通常是每月甚至每周）改进，涉及AI的教育干预措施便成了难以固定的动态目标。例如，一项检验GPT-3驱动的辅导效果的研究，可能在GPT-4或GPT-5引入显著增强的功能时就已经过时了。因此，关于AI支持的教育方法的发现，往往在学术界和实践者社区传播之前就已经过时。

这个挑战呼应了赵勇（Zhao, 2024）的观点，他认为教育研究必须适应研究对象——人工智能工具——比研究周期演变得更快的现实。因此，研究人员必须拥抱更具适应性、实时性和迭代性的探究形式（Barab & Squire, 2004; Perrotta & Selwyn, 2020）。

2. 重新思考教育目标

人工智能提出了关于认识论与课程设置的根本性问题：当机器能比人类更快更好地完成许多认知任务时，学生应该学什么？这一问题呼应了赫伯特·斯宾塞（Herbert Spencer）提出的经典之问——“什么知识最有价值？”（Spencer, 1860）。在人工智能时代，对这一问题则需要一个全新的答案。当人工智能工具能够提供实时支持时，记忆和标准技能的习得可能会失去其重要性。

相反，教育可能需要强调创造力、伦理判断、问题发现和人机协作。这些转变为研究人员带来了压力，他们不仅要研究如何利用人工智能更有效地实现现有目标，还要研究这些目标本身必须如何被重新定义（Mishra & Mehta, 2017; Zhao & Watterston, 2021）。

此外，人工智能的融入不仅改变了教学方法，还从根本上重塑了教育环境本身，影响了学生的学习行为、认知参与和社交互动（Zhai, Chu, Chai, Jong, Istenic Starcic, & Liu, 2021）。这些变化的动态性使得传统的静态教育研究观点变得不足，并带来了前所未有的方法论和认识论挑战。研究人员被迫调整其方法论，转向更灵活、响应迅速和迭代的研究设计，以更好地适应技术创新的快速步伐及其在教育环境中的后果（Baker & Siemens, 2014; Williamson, Eynon, & Potter, 2020）。

3. 从因果关系到复杂性

人工智能并非作为一种独立的教育干预手段发挥作用，而是构成了一场生态层面的系统性变革。生成式人工智能对学习产生的影响具有涌现性、非线性的特征，且与具体情境高度相关（Zhao & Zhong, 2024; Zhong & Zhao, 2025）。因此，教育研究的主导范式——特别是随机对照试验（RCTs）——可能不足以解释这些动态变化。相反，教育研究必须借鉴复杂性科学和系统思维。网络民族志、基于主体的建模和基于设计的研究等方法可以捕捉课堂中人机互动的动态演变特征（Bar-Yam, 2004; Cobb et al., 2003）。

4. 分布式认知与作为共同学习者的人工智能

在学习情境中使用人工智能挑战了关于知识来源的传统假设。人工智能的融入不再将学习视为独立的认知过程，而是揭示出认知是在人类与机器之间分布式存在的特性。这与分布式认知（Hollan et al., 2000）和“人在回路”系统（Amershi et al., 2019）等理论框架相一致。教育研究必须开始构建新的学生概念框架—— 学生不应仅仅被视为独立的学习者，更应被看作人机协同系统中的参与者。这类协同模式既改变了学习的过程，也改变了学习的成果，这就要求我们采用全新的评估方式与观察方式。（Luckin et al., 2016）。

5. 伦理、公平与社会技术探究

人工智能融入教育的过程并非价值中立，这一趋势引发了诸多亟待解决的问题，涵盖数据隐私、算法偏见、接入公平性以及教育监控等多个方面。在历史上处于边缘地位的群体，可能会在人工智能驱动的教育模式中承受不成比例的伤害，或者只能获得十分有限的益处。因此，教育研究必须跳出单纯关注 “有效性” 的局限，转而提出关于公平性、包容性与权力分配的批判性问题。（Benjamin, 2019; Noble, 2018; Selwyn, 2019）。批判理论、女权主义认识论和社会技术框架，为审视人工智能在教育场景中的设计逻辑、应用方式与接受程度提供了极具价值的分析视角。

6. 迈向参与式、生成式研究

生成式人工智能为研究过程的民主化开辟了可能性。教师和学生可以成为共同研究者，使用人工智能工具生成数据、反思实践和设计解决方案。这呼吁采用参与式设计研究和行动研究模型，将学习生态系统中的所有行动者都视为知识的生产者（Bang & Vossoughi, 2016; Brydon-Miller, Greenwood, & Maguire, 2003; Ito et al., 2020）。

7. 特例：人工智能对文献综述的变革

教育研究中的文献综述实践正在经历一场由人工智能（AI）飞速发展驱动的根本性变革。传统上，文献综述作为学术探究的关键基础，使研究者能够将其工作置于现有知识的背景中，识别理论和实证上的差距，并为其研究问题提供理由。然而，这一过程历来受到人类局限性的制约——有限的注意力、认知过载以及手动搜索和筛选的低效率（Boell & Cecez-Kecmanovic, 2015）。以自然语言处理（NLP）、大型语言模型（LLMs）和机器学习算法（machine learning algorithms）为形式的人工智能，如今正通过一种结合人类判断与机器效率的新型“增强型综述”来颠覆这一范式（Jovanović et al., 2021; Yin et al., 2022）。

人工智能增强的工具能够以前所未有的速度和规模，浏览浩瀚且不断扩大的学术文献。例如，Semantic Scholar、Scite和Connected Papers等平台利用自然语言处理提取关键主题、追踪引文网络并突显特定领域的重要著作。这些工具使研究人员能够可视化概念关系、追踪思想演变，比单独通过手动过程能更有效地识别未被充分探索的领域（Marshall & Wallace, 2019）。此外，像ASReview这样的机器学习系统会采用主动学习策略，在系统性综述中优先筛选文章，能够减少研究人员必须阅读的文章数量，同时保持高召回率（van de Schoot et al., 2021）。这类系统在教育研究领域的价值尤为突出 —— 该领域存在大量的学科交叉内容，且研究方法体系多样，这往往会让全面的文献综述工作耗时费力，还容易出现文献遗漏的问题。

除了简化文献发现过程，像ChatGPT、Elicit和Scispace Copilot这样的生成式人工智能工具也越来越多地被用于协助内容合成、主题分析，甚至复杂理论论点的改写。这些工具可以生成初步的文献摘要，组织主题，并为分析提出潜在的框架，有效地充当智能研究助理（Gilson et al., 2024; Lund et al., 2023）。虽然它们不能替代学术解读，但可以显著减少与大规模综述相关的认知和时间负担，特别是对于新手研究人员或缺乏深厚领域知识的跨学科团队而言。

然而，将人工智能整合到文献综述中也带来了一系列教育研究者必须谨慎应对的认识论和伦理挑战。首先，存在算法偏见和不透明性的风险。如果人工智能工具在有偏见的语料库上进行训练，或者其选择标准对用户来说难以理解，那它们可能会强化主流叙事或排除边缘化观点（Leitner et al., 2023）。这在教育领域尤其令人担忧，因为该领域以文化、语言和意识形态的多样性为特征。其次，人们担心批判性参与的削弱。文献综述不仅仅是技术性练习，更是解释性行为——是研究者理解并批判性地与知识体系互动的场所（Biesta, 2020）。过度依赖人工智能生成的摘要或分类可能会阻碍深度阅读以及那种能推动理论创新和方法论进步的反思性分析。

此外，人工智能辅助综述的认知地位仍在演变中。当机器对知识合成做出贡献时，关于作者身份、署名和学术严谨性的问题依然存在。例如，研究者应如何引用人工智能生成的见解？又该以何种标准指导机器筛选文献目录的验证工作？随着人工智能愈发深度融入研究工作流程，相关的行业规范与教育项目必须随之更新完善，以应对这些问题。培养未来的教育研究者，不仅需要使其掌握运用人工智能工具的技术能力，还需培养他们的伦理素养，以及对人工智能工具局限性与偏见性的批判意识（Biesta, 2020; Gilson et al., 2024）。

总之，人工智能无疑改变了教育研究中文献综述的实践模式—— 从文献检索到知识整合的整个环节均受其影响，它提供了强大的工具，能够提升综述工作的效率、拓宽研究的广度，甚至还能为研究带来全新的洞见。然而，要负责任地使用人工智能，就必须重新构建文献综述流程的理念框架，将其视为一种建立在批判性反思、透明化原则与认知审慎基础上的人机协作模式。随着人工智能技术的发展，教育研究界必须以恰当的方式推动其应用，确保这种应用能够增强而非削弱学术研究的核心价值。

8. 人工智能、研究设计与教育研究的认识论转变

将人工智能融入教育研究，不仅正在改变文献综述等方法论流程，也促使学界重新审视研究设计与基础性的认识论假设。教育研究设计的核心，始终围绕着三类问题展开：何为知识、如何获取知识，以及应当如何阐释知识。人工智能技术的兴起——特别是机器学习算法、数据驱动的预测模型和生成系统——挑战了定性和定量范式之间的传统区别，引入了新的数据形式，并迫使研究人员重新思考他们在知识生产过程中的角色（Knox, 2020; Williamson, 2021）。

最重要的转变之一是对数据密集型研究设计的日益重视。人工智能工具使教育研究者能够获取、处理并分析海量且复杂的数据集，这类数据往往具备实时性，包括学习管理系统日志、学生与教育软件的交互记录、生物特征反馈信息等多种类型。这一发展催生出了新型的学习分析、预测建模与实时干预设计方法，使其突破了静态变量与回溯性分析的局限（Siemens & Baker, 2012; Slade & Prinsloo, 2013）。这类研究方法通常采用相关性分析或模式识别的逻辑，而非由理论驱动的假设推导。这种重预测、轻解释的倾向引发了学界对其可能产生的认识论影响的担忧（Hoffmann, 2019）。

此外，人工智能赋能的研究常常挑战研究者作为解释的唯一甚至主要代理人的传统观念。在以人为中心的定性研究中，意义是通过对话、情境和反思性共同构建的。然而，在大型语料库上训练的人工智能系统现在可以自主生成主题、检测情绪或分类话语——这些任务以前是解释性研究者的领域（Zawacki-Richter et al., 2019）。虽然这些工具可以增强人类的分析，但它们也可能掩盖定性研究传统上阐明的解释层次和情境复杂性。危险不仅在于认识论的扁平化，还在于Biesta（2010）所描述的教育的“学习化”——即经验描述取代了关于教育应该做什么和成为什么的规范性问题。

生成式人工智能在研究工具设计（如调查问卷、提示语乃至访谈大纲）中的应用日益广泛，这进一步复杂化了研究者意图与方法论控制之间的关系。尽管这类工具能提升研究效率、增强研究的可扩展性，但同时也引发了学界对于人工智能生成的研究材料在可重复性、透明度以及情境适配性方面的担忧。此外，当人工智能工具基于大规模数据的模式识别来提出研究假设或研究问题时，研究的出发点便从人类的主观构想转向了算法生成的建议。这种转变可能会导致一种倾向：那些具有统计学显著性，但在实际意义上无关紧要或在意识形态层面存在问题的研究模式，反而会被赋予优先地位。（Leitner et al., 2023）。

这些转变要求教育研究界给出认识论层面的回应。学者们必须审视人工智能系统中隐含的各类假设，例如，这些系统依赖过往数据预测未来行为的逻辑、将复杂社会现象转化为离散可量化特征的方式，以及它们以中立为幌子、实则加剧既有不平等状况的潜在可能（Noble, 2018; O'Neil, 2016）。他们还必须关注新兴的混合认识论——这类认识论兼具计算属性与阐释属性，是人工智能赋能的研究设计所必然伴生的产物。这其中就包括，结合算法介入的背景，重新思考效度、信度、可推广性以及反思性这些核心研究准则的内涵。

最终，人工智能促使我们重新构想教育研究—— 这不仅关乎研究工具与技术的革新，更意味着教育研究作为一个学科领域，必须直面并应对全新形态的能动性、知识体系与责任担当。正如Knox（2020）所建议的，人工智能参与研究迫使我们从“关于”教育的研究转向“与”智能系统“共事”的研究。这种重新定位，超越了研究方法层面的创新范畴，进入了哲学思辨的领域。它促使教育研究者在智能技术日益自主化的时代背景下，重新审视自身研究工作的目标、伦理准则与价值立场。

四、结论：迈向教育研究的重生

教育研究正站在十字路口。长期存在的诸多挑战—— 从有缺陷的同行评审、量化偏见，到过度概括化、对个体差异性的忽视，以及将学习窄化为若干限定性成果的做法—— 都限制了该领域的现实意义与实际影响力。在研究工作中，人们往往更重视那些具有典型性、可量化的内容，却忽略了具有发展潜力与深层价值的部分。不同方法论阵营之间的范式之争，进一步割裂了这一研究领域，阻碍了研究成果的整合与学术创新的推进。其结果便是，大量教育研究既无法应对真实学习环境的复杂性，也无力支持真正具有变革性的教育革新。

人工智能的兴起，在加剧这些挑战的同时，也带来了前所未有的机遇。人工智能加快了固化研究范式的淘汰速度，对现有研究设计的效度提出了挑战，并引发了一个深刻的问题：在机器能够完成多项认知任务的时代，学生究竟应当学习什么？传统的研究模式——呈线性、进程迟缓且往往具有简化论倾向——已难以适应技术飞速变革、复杂性与日俱增的时代。有鉴于此，教育研究必须接纳适应性强、具备参与性与多元性的全新认识论与方法论。这其中包括基于设计的研究方法、融合复杂性科学视角的研究方法，以及面向未来的研究方法，这些方法均能兼顾新兴系统的特性与不断演变的人机关系。

人工智能也促使人们重新思考认知、学习与知识的本质。随着人类智能与机器智能的交融日益深入，相关研究必须重塑对学习者的认知框架—— 不应将学习者视为孤立的个体，而应将其视作分布式动态系统的一部分。这一转变不仅需要全新的研究与评估形式，还要求学界致力于解决人工智能在教育领域应用所带来的伦理、社会与政治层面的深层影响。此外，生成式人工智能为研究的大众化开辟了新路径：它让师生以知识共创者的身份参与研究，同时借助人工智能工具优化反思性实践，助力研究方案的设计。

总之，教育研究的未来必须被重新想象。它不能仅仅是对当前实践的优化，而必须代表一种更深层次的转型——一种认识论和方法论的重生。为了在人工智能时代保持其相关性和责任感，教育研究必须变得更具想象力、包容性和对复杂情境的应对能力。它必须不仅渴望解释“是什么”，更要展望“可能是什么”。

（赵勇工作邮箱：yongzhao@ku.edu。说明：本文的英文版在 ECNU Review of Education上同步发表。赵勇，博士，美国堪萨斯大学教育学院杰出教授、澳大利亚墨尔本大学教育学院教育领导力教授、华东师范大学全球讲席教授。美国教育科学院院士和国际教育科学院院士。曾任美国密歇根州立大学教育学院杰出教授，俄勒冈大学教育学院副院长，首位校长讲席教授，教育测量及教育政策系终身正教授，教育技术中心主任等职。曾获2003年美国教育研究协会早期成就奖，2010年美国教育领导力研究所年度杰出领导奖，2012年被《技术和学习》杂志评选为“2012年教育技术领域十大最具影响力的人物”之一，2017年美国霍拉斯·曼联盟杰出公立教育家奖。）

关键字：人工智能教育研究分布式认复杂性方法论多元主义范式转型

上一篇：顾小清：人工智能时代教师的角色重构与实践路径
下一篇：赵勇：跨学科教学三问

人工智能时代教育研究的死亡与重生：问题与前景

最新文章

热门文章