焦点期刊
投稿咨询

著作编辑 著作编辑

咨询邮箱:1117599@qq.com

写作指导

主观性如何影响研究性论文质量

时间:2021-12-24 23:11 所属分类:写作指导 点击次数:

  在初始阶段搜索和选择相关研究是进行系统评价的一个重要方面(Petrosino,1995)。一个好的“系统”评价的两个明确优势是透明度和可重复性(Gough, Oliver, and Thomas,2012)。方法健全的系统评价的特点是详细报告系统搜索是如何进行的以及结果是如何分析的。进行系统评价的过程需要在不同的时间点做出决定,通常是主观的,除非提供详细的信息,说明编码和筛选决定是如何做出的,以及研究团队不同成员之间的分歧(如果有的话)是如何解决的,否则评价很难复制。显然,系统评价是资源密集型的,通常需要一组研究人员长时间工作(Borah等,2017)。最近一项关于进行系统评价所需资源的研究(Borah等,2017)表明,参与进行系统评价的成员平均人数为5人(标准差为3),进行和公布评价所需的平均时间为67.3周(四分位数范围(IQR) 42)。决策需要由多人在多个时间点做出,首先是关于评价范围和重点的决策,然后是搜索词和纳入标准的选择,最后是研究的编码和分析。意见分歧必须解决,研究团队成员之间必须达成一致。

  令人惊讶的是,在一项研究的筛选和数据提取阶段,当使用多个编码员在不同的时间点做出决策时,很少注意报告评分员可靠性(IRR)的细节。通常,评分员可靠性以不同编码者之间一致的百分比(如果有的话)进行汇总报告。有时,一致性由k或类似的“机会修正”统计数据限定,这比简单计算一致性的原始比例提供了更多的信息(Viera and Garrett,2005),但报告很少涵盖进行评分员可靠性测试的过程阶段的细节,向编码员提供了什么培训,为什么会出现分歧,以及如何解决这些分歧( Lombard, Snyder-Duch, and Bracken,2002)。诚然,在报道这些细节时可能会受到编辑或其他方面的限制。在线补充材料成为在线发表文章的常规附件,可能会缓解这种在编码决策上缺乏一致细节的问题。

  然而,我们认为,尽管系统评价声称是可重复的,但在决策过程中有几个点,研究人员根据主观标准行使酌处权,而这些标准并未得到充分承认。通过使用两个实施评分员可靠性练习的实际例子,我们旨在证明,尽管有明确的纳入标准、排除标准和编码说明,但系统评价包含一定程度的主观性,影响可重复性。我们进一步探索了人类决策可变性的原因,即使是在严格定义的框架内。本文还将演示如何使用评分员可靠性练习来开发和完善码本,以在稳定性、准确性和可再现性方面指导和改善编码行为。

  本文的结构如下:第一部分讨论了本研究的背景,下一部分探讨了进行评分员可靠性和评分员内可靠性测试的重要性。随后讨论了系统评价在多大程度上报告了预防犯罪文献中的评分员可靠性测试。下一部分介绍了研究背景和研究方法,接着是评分员可靠性和评分员内可靠性测试的结果。倒数第二部分讨论了编码者行为的原因,解释了结果,随后是结论,强调了在研究报告中进行和报告评分员可靠性的重要性。

  系统评价的背景/质量保证

  2014年,新成立的警察学院与经济和社会研究理事会合作,资助了一个由八所英国大学组成的联盟,以建立一个减少犯罪的有效中心。这篇文章是基于两项研究的经验,这两项研究是这个项目的一部分。该联合会希望为评估现有证据在预防犯罪方面的作用设定最高的质量标准,因此大力强调方法的严谨性。

  在本文中,我们介绍并讨论了在两项研究中进行的多重评分员可靠性测试的结果。第一项研究涉及一组有经验的编码者(他们被命名为该项目的研究人员),另一项研究包括新手编码者(从同一所大学的系里挑选的博士生);两个团队都有不同水平的专业知识和学科知识。这里报告的评分员可靠性任务的目的是改善编码者的行为,并帮助码本的开发。诚然,本文报道的研究是更大的研究项目的副产品——这在测试-重测研究中经常发生(Ashton,2000)。然而,这两项研究的评分员可靠性结果突出了编码者行为的一些有趣方面,本文的重点是提请注意使用多个编码者所涉及的挑战以及由此产生的决策差异,这可能会影响最终产品的质量。我们建议,多重评分员可靠性测试(当编码大数据集时)和伴随的调节练习可以提高系统评价的质量和严谨性。学术背景、研究经验、研究方法的偏好和参与评审过程的程度(即每个编码员所具备的先入之见和先验知识)被假设为与单个编码员的编码行为和决策相关。

  通过序言,编码可以由单个编码者或多个编码者的团队在系统评价的不同阶段完成,用于质量评估目的,例如,在标题和摘要的初始筛选、全文的第二次筛选或数据提取阶段。理想情况下,评分员可靠性应该在这个过程的每个阶段进行,在每个阶段产生不同的评分员可靠性度量。计算评分员可靠性有各种方法,最简单的方法是编码者之间的一致百分比。冯(Feng,2014)建议不要单独使用一致性百分比来报告评分员可靠性,尤其是在编码工作不太容易的情况下。在这种情况下,机会一致性应该被估计,并从可靠性的估计中去除。因此,存在更先进的计算评分员可靠性的方法,包括斯科特的p,科恩的k,或克里彭多夫的a (Lombard等,2002)。考虑到两个或两个以上编码者之间的机会一致性的最常用统计量是k统计量,其中得分为1表示完全一致,0表示完全由于机会而一致(Viera and Garrett,2005)。因此,k统计量不仅测量精确性(使编码与码本对齐),还测量精确性(确保编码者之间的一致性不仅仅是偶然的)。

  选择最合适的评分员可靠性衡量标准的决定是基于编码决策的复杂性、编码者的数量和被编码数据的类型(Lombard等,2002)。如果编码任务过于复杂或者被编码的数据不是标称的,一些更复杂的措施不适合多个编码者。事实上,冯(Feng,2014)认为,尽管评分员可靠性在整个社会科学领域越来越流行,但在编码过于复杂或类别数量过多的情况下,它并不总是合适的。本文中报告的编码任务可以被认为是这方面的一个例子,因为它涉及到主观判断的解释和练习。

  编码涉及对显性内容(“表面”信息)和隐性内容(“表面之下的”信息)的评估,后者涉及基于编码者心智模式的主观解释(Lombard等,2002)。因此,对清单内容进行编码将涉及搜索在搜索词中标识的关键词或关键概念。然而,编码通常还包括根据所说的意思做出决定,而不是只看实际的单词,这意味着它还不能通过计算机算法来完成。从搜索的研究数据库中筛选研究是系统评价过程的一个组成部分。它涉及为纳入或排除进行编码,即根据标题和摘要判断正在考虑的研究是否符合预定的纳入标准,因此应保留或放弃进一步分析。

  克里彭多夫(Krippendorff,2004)认为编码的三个方面对可靠性很重要:稳定性(指编码者的行为是否随着时间的推移保持不变)、准确性(编码是否根据预先编码的码本)和再现性(多个编码者以相同的结果编码)。因此,为了实现编码的一致性和准确性,多个编码者共享心智模式变得非常重要(Potter and Levine-Donnerstein,1999)。衡量编码的可靠性对于确定研究质量也很重要,编码者之间或与码本的一致性很低,表明研究方法的缺陷(Kolbe and Burnett,1991)或者纳入/排除标准的清晰度不足。

  当多个观察者在观察同一个现象时,结果可能会有一些变化。这就需要对观察结果的可靠性做出回答。已经提出了各种解释来解释编码者行为的变化。阿姆斯特朗等人(Armstrong,1997)关于编码者定性数据一致性的研究报告说,虽然在他们的研究中对主题有广泛的一致意见,但编码者根据他们的地理、学科或个人经验或观点的不同而“包装”不同的概念。因此,影响概念如何“包装”的三个重要因素是编码者的背景、他们的领域知识以及他们的研究经验。此外,据说“框架效应”解释了决策中的差异,这种差异是由决策者观点的差异和他们做出这些决定的背景差异造成的(LeBoeuf and Eldar,2003)。换句话说,证据表明任务的制定方式会影响决策过程。因此,可以说,筛选任务的最终目标是如何制定的,以及个体编码者是如何解释的,都会影响他们的决策。一个积极的框架代表一个任务,通过这个任务,一个条件的满足会导致一个期望的结果,而一个消极的框架会暗示一个条件的不满足会导致一个不期望的结果。

  此外,罗森、加塞和塞弗特(Further, Roussen, Gasser, and Seifert,2002)认为,个人编码者的性能受到他们所谓的“学习效应”和“疲劳效应”的影响。在测试-重测的情况下,这些效应对个体编码者的行为有相反的结果。学习效应指的是在测试-重测情况下决策相对于码本的准确性的提高,而疲劳效应指的是由于长时间暴露于任务而导致的决策恶化(Roussen等,2002)。

  同样,当使用多个编码员对数据进行编码时,通常应报告一致程度,作为编码可靠性的衡量标准。然而,以百分比形式报告的编码者之间的一致(这是经常发生的情况)并没有告诉我们编码工作的准确性或精确性。在评估观察者一致性的质量时,准确度和精确度都很重要(Viera and Garrett,2005)。此外,分歧的原因以及如何解决这些分歧对于确保最终编码的质量同样重要。

  评分员可靠性或编码内部一致性可以被定义为“独立编码者对信息或人工制品的特征进行评估并得出相同结论的程度”(Lombard等,2002:589)。另一方面,评分者的可靠性衡量一个人以同样的方式解释数据并随时间分配相同编码的程度。因此,跨多个编码者的可靠性由评分员可靠性来衡量,同一编码者随时间的可靠性由评分者内的可靠性来衡量(McHugh,2012)。

  评分员可靠性的系统评价和报告

  “什么在减少犯罪中起作用”联合会的首要任务之一是利用系统方法收集现有证据,包括彻底搜索和透明筛选阶段。绘制证据景观图的工作产生了328个具有减少犯罪成果的证据综合体(Tompson and Belur,2016)。为了生成减少犯罪文献中如何报告评分员可靠性信息的基线,随机选择了100个证据综合体,并提取了评分员可靠性信息,包括评分员可靠性的时间、评分员可靠性的任何统计报告、参与筛选的人数以及如何解决分歧。

  对评分员可靠性报告的分析表明,只有49项研究提到了评分员可靠性(见表1)。其中,31项研究没有报告任何关于评分员可靠性的统计信息,只是提到进行了一次评分员可靠性测试,或许还提供了一些关于何时进行、由多少编码员进行和/或如何解决分歧的信息。16项研究报告了编码者之间的可接受和实际百分比一致性(通常超过80%的一致性被称为可接受),只有3项研究报告了k统计一致性。

  此外,如表1所示,35项研究没有报告参与编码的编码者数量,只有8项研究报告使用了两个或更多编码者。其余六项研究报告主要使用一个编码者,并用另一个编码者对一小部分研究进行评分员可靠性测试。分析还显示,16项研究报告了筛选阶段的评分员可靠性,30项研究报告了数据提取阶段的评分员可靠性。只有六项研究报告了两个阶段的评分员可靠性,最后,一项研究报告了多个阶段的评分员可靠性。在我们样本中报告评分员可靠性的49项研究中,有32项研究报告说,通过讨论达成共识来解决分歧,但有17项研究没有提到如何解决分歧。

  总的来说,我们对预防犯罪领域评分员可靠性的粗略评估表明,目前预防犯罪领域的大多数系统评价都没有提供足够的信息,说明是否进行了评分员可靠性测试以及进行了哪些评分员可靠性测试。不清楚这是否是因为作者实际上没有进行评分员可靠性测试,或者结果是否被认为不够重要,不足以在公布的结果中提及。我们的发现在其他领域也得到了验证,例如在传播学研究中,伦巴第等人(Lombard,2002)报告了许多研究的发现与我们相似,证实了评分员可靠性仅在所包括的研究中的一小部分中报告,并且即使它们确实包含信息,但对于谁在编码、在哪个阶段以及涉及什么培训,这些信息通常是不透明、不完整或不明确的。

  方法

  本研究中使用的评分者可靠性和评分者可靠性测试数据仅限于系统评价的初始筛选阶段的编码,当时编码者参与决定是否纳入或排除基于标题和摘要的研究。本文的范围仅限于初始筛选阶段,因为一旦筛选完成,并通过这一过程制定了最终的研究列表,所有研究的后续编码就由两个编码员完成,以降低偏见的风险。评价的这一阶段的所有分歧都提交给了更广泛的编码团队来解决。虽然这不能消除主观偏见,但它限制了范围。

  我们使用了k统计量的扩展(k Fleiss统计量,专门针对多个编码者)来测量评分员可靠性,因为它是系统评价中最常引用的分析技术(见上文)。还有其他更复杂的评分员可靠性分析技术。然而,这项工作的目的不是完善评分员可靠性测试的统计分析,而是反思筛选阶段决策的人的方面和影响。

  在每次评分者可靠性练习之后,研究1和2的编码团队成员之间立即进行了坦率和公开的讨论。第一作者作为研究1的编码者之一和研究2的监督者和仲裁者,每次都主导了讨论。讨论的重点是反思筛选决定背后的思想,特别是那些偏离“正确”决定的思想。这些会议之后做了记录,并记录了细节。讨论数据用于分析两个独立研究的筛选行为,这两个研究是同一个更大项目的一部分。这两项研究的细节如下。

  研究1

  如上所述,研究1系统地搜索了大量文献,寻找具有减少犯罪结果的证据综合。由于减少犯罪的跨领域性质,文献跨越了许多学科,因此搜索范围很广(更多详细信息,请参见Tompson和Belur 2016)。

  编码小组由三名经验丰富的研究人员组成:两名高级研究人员和一名博士后研究人员,每名高级研究人员在预防犯罪领域都有八年以上的经验。两名编码员(A和B)在预防犯罪方面有从业和学术经验,第三名编码员(C)有工程背景,在安全领域有研究经验。两名研究人员以前有过进行快速证据评估的经验,但在这个项目之前没有人进行过全面系统的评价。两位编码员(A和C)熟悉定量研究方法,而第三位编码员(B)主要是定性研究者。两名研究人员密切参与了搜索词的开发和相关研究的已确定数据库的搜索(A和B),而第三名研究人员(C)在筛选阶段就进入了这一过程,并接受了另外两名研究人员的培训。这些研究人员还进行了筛选的后续阶段和最后阶段,以及在商定纳入的最终研究清单后的数据提取阶段。因此,他们致力于确保他们在早期筛查阶段的决策行为尽可能准确。

  研究2

  研究2的目的是对与访问控制作为减少物理环境中犯罪的一种方法的有效性有关的证据进行系统评价。“访问控制”被研究作者广泛定义为对场所、人员、目标和资源的访问或使用的选择性限制。

  编码团队由四名博士研究人员(1、2、3和4名)组成,他们分别来自不同的主要学科(数学、心理学、政治学和国际发展),正在从事安全和/或犯罪预防领域的多学科博士研究项目。然而,研究员4在完成第三次评分者可靠性测试之前离开了项目;因此,她的筛选不包括在随后的任何计算中。内部评价报告工作由研究小组的一名有经验的成员(第一作者)监督,当编码员无法解决不一致时,他是最终的仲裁人。最终包含在以下报告结果中的三名编码员是研究助理,仅参与系统评价的初始筛选阶段,因此既不参与评价的设计,也不参与随后的数据提取和分析阶段。

  按时间顺序,研究1在研究2之前完成。研究1的研究小组很快意识到,根据标题和摘要筛选研究的任务比最初设想的要复杂。此外,这三个编码员在设计研究和理解所涉及的主题方面有不同程度的参与。观察到编码者行为的一些变化。这项工作的结果被纳入研究2的系统评价方案。参与研究1的一名研究人员充当了解决研究2中编码者之间冲突的专家。对关键数据库的搜索为研究1和2分别产生了16,764和10,275条引用记录。这些记录按照排除标准进行筛选,以丢弃不相关的研究。随着任务的进行,基于排除标准的码本得到了改进,并借鉴了编码员在评分员可靠性测试中的经验。

  评分员可靠性研究设计:评分者可靠性与编码者可靠性

  要筛选的研究总数被分成两个评分员可靠性研究中每个编码者大致相等的部分。为了确保筛查的一致性和准确性,决定在两项研究中进行三次评分员可靠性测试:第一次测试在开始,第二次在筛查中途,最后一次测试在筛查结束时。每个评分员可靠性测试从每个评分员可靠性引用记录的较大数据库中随机选择大约100篇文章作为样本。研究1和2中的第二次和第三次评分员可靠性测试的数字有一些差异,因为样本由每个编码员分配的研究的固定百分比组成,这些研究已经由单个编码员筛选,并且在原始筛选和测试筛选之间进行比较,以检查一致性和评分者可靠性。由于每个编码者的研究数量略有不同,这就解释了每个编码者为评分员可靠性筛选的研究数量的差异。

  在任务开始时,所有编码员单独随机筛选了大约100个项目。结果进行了比较,通过编码员之间的讨论解决了分歧。在无法通过讨论解决的极端分歧情况下,与项目负责人的协商有助于澄清问题和疑虑,并有助于完善编码方案的“鉴别能力”,即减少编码错误的能力(Campbell等,2013)。因此,在每次评分员可靠性测试结束时,码本的精确性都得到了提高。图1展示了研究1的研究设计和过程的快照。研究2也采用了相同的设计。

  筛选研究分为两个阶段。纳入或排除的初步筛选首先基于标题和摘要,在此阶段纳入的研究需使用全文(通常为pdf文档)进行进一步筛选。在全文筛选后,一旦纳入,根据预先设计的编码工具从研究中提取数据,并对证据质量进行评估。最初的筛选包括关于标题和摘要的简单编码决定,是纳入括或排除进一步分析的研究。在最初的筛选阶段,子类别被用来证明纳入或排除一项研究的决定是合理的,该决定旨在成为这一早期阶段总体决策过程的一种逻辑指南。例如,“排除—不是系统评价”或“排除—不是主题。”

  这项任务并不直接,因为摘要或标题往往没有提供足够的信息,说明研究是否包含相关信息。然后是个人判断是否纳入或排除基于现有信息的研究。灰色区域或不确定性的存在意味着我们最终增加了另一类“纳入——也许/供进一步讨论。 ”团队定期讨论属于后一类的研究,以便就是否应该纳入或排除它们以进行全文筛选达成共识。然而,在评分员可靠性测试中,如果一项研究的编码为纳入(供讨论),其他编码为排除,则结果被认为是对整个编码类别(即纳入或排除)的分歧。由于排除标准在筛选过程中不断以这种方式得到澄清,目的是到第三个评分员可靠性测试时,编码中不应有不确定性。

  然而,在本文中,我们将对评分员可靠性的讨论限制在对标题和摘要决策的简单纳入或排除,因为它充分说明了我们的论点。此外,研究表明,简单的编码方案比复杂的编码方案更好,因为它们往往具有更高的编码者可靠性,节省时间,并避免后来可能被证明是不相关的编码(Campbell等,2013)。

  此外,尽管明确阐述了纳入标准,但基于标题和摘要中包含的定性数据的编码研究并不简单,尤其是在社会科学领域(Tompson and Belur,201年),因为参与编码的成员在能力、经验和主题专业知识方面可能有所不同(Campbell等,2013;Morse,1997)。在三次评分员可靠性测试中,对编码间和编码内的反应进行了测量和分析,并根据观察结果和与编码员的讨论得出了某些推论。我们使用k统计量的一个流行的扩展(多个编码者的k Fleiss统计量)来测量评分员可靠性。将更详细地讨论研究1和研究2,用于比较目的。

  结果

  编码者内部可靠性(集体精确性)

  下面介绍的两项研究的三个评分员可靠性的原始结果表明,两项研究中编码应用有些不均衡。标有第一、第二和第三评分员可靠性的列显示了下面各行中每个类别的研究数量。

  最初三个编码员分别编码了106个研究。当比较结果时,三个编码者之间有86.8%的一致性。在大多数分歧的情况下,“正确的”编码(或最终商定的编码)通常是由两个编码者商定的。只有在三个筛选练习中所有分歧的两个实例 (n ¼ 30) 中,“多数”共识被拒绝为不正确。

  此外,对14项研究的编码意见不一的问题被阐述他们的推理的编码者讨论。这些富有成果的讨论帮助团队成员调和了四项研究中的分歧。编码员无法调和10项研究中的差异,不得不求助于研究团队中第四位更资深的成员进行调节。这项工作表明,排除标准的某些方面缺乏明确性,例如,与研究设计、研究方法和结果测量类型有关的问题,但更根本的是,如何筛选显然不适合纳入但由于其他原因可能相关或有趣的研究。编码员B将这些编码为“纳入(需要第二人意见)”,因为她对如何处理这些研究感到矛盾,并且对排除它们感到不舒服,要么是因为摘要中没有足够的信息,要么是研究似乎相关,但没有满足纳入的所有条件。因此,她的判断更加“慷慨”或包容。其他编码者选择排除它们,因为摘要没有表明它们符合任何纳入标准。在第一次评分员测试可靠性的末尾,添加了一个名为排除(但与背景信息相关)的新子类别来处理这些类型的研究,这有助于提高后续测试中的总体一致性水平。

  第二次评分员可靠性测试结果(102项研究编码)显示了稍高的一致性水平(89.2%),调和分歧的过程再次非常有助于完善排除标准。有趣的是,在之前的评分员可靠性调节会议上做出的决定仍然存在一些混乱,特别是因为这些决定没有被记录下来,并且每个编码者对已达成一致的记忆略有不同。在摘要中没有提到搜索是系统的,但显然在评价中包括了多个评估的情况下,排除标准也有一些矛盾。在这种情况下,我们发现个人对标准应用的严格程度的偏好发挥了作用。对于编码员A和C来说,说明是明确的:如果信息没有在标题或摘要中明确说明,该研究将被排除在外。编码员B对研究可能包含的内容的推断更加开放,因此在她的选择中倾向于更具包容性。

  第三次也是最后一次评分员可靠性测试(103项研究编码)结果显示编码者之间的一致性更高(95.2%)。对五项研究的分歧归因于人为错误。

  编码者是由研究小组的一名高级成员监督的,该成员帮助编码者在内部评价报告之后的协调练习中达成一致。通过每个评分员可靠性测试,最初的一致程度有了相当大的提高。从研究1的经验中学习,注意确保从一次评分员可靠性会议到下一次评分员可靠性会议,书面编码簿都得到完善。这极大地帮助了编码者作为一个群体改善他们的决策行为。然而,仲裁人(也是第一作者)在与编码者的讨论中观察到,他们在行为方面反映较少,倾向于将差异归因于人为错误或对自己的选择不确定——主要是由于缺乏学科专业知识。

  评分员可靠性(精确性)

  如上所述,计算k统计量以确定编码行为的精确性(即考虑机会)。表4说明了兰迪斯和科赫(Landis and Koch,1977)对可能的k统计范围的解释。

  表2和表3显示了每个编码者编码的记录数量,所有三个编码者在每个评分者可靠性测试中编码的纳入和排除的总数,以及百分比和计算的k统计的总体一致性。

  因此,在研究1中,百分比一致性随着每一个评分员可靠性而稳步提高,k统计表明,第一个评分员可靠性的一致性中等,第二个评分员可靠性下降到一般,第三个评分员可靠性上升到充分。相比之下,对于研究2,三个评分员可靠性的百分比一致性低于研究1,但总体而言,第二个和第三个评分员可靠性的k值更好。

  两项研究的每个评分员可靠性的一致程度都以百分比的形式上升。然而,对于研究1,即使第一次和第二次评分员可靠性之间的一致水平从87%上升到89%,k系数从0.43下降到0.31,表明一致水平从中等到一般。这种矛盾的原因可以用k悖论来解释(Cicchetti and Feinstein 1990;Gwet,2008)。这里,在编码不对称分布的情况下(例如像研究1中),即使在百分比方面非常高的一致性也可能导致低k分数。维耶拉和加勒特(Viera and Garrett,2005)进一步提出,对于罕见的发现,低水平的k不一定表明低水平的一致性(关于这个悖论的统计解释,见Cicchetti and Feinstein,1990;Viera and Garrett,2005)。如表2所示,对于研究1,编码为纳入和排除的研究数量是每个评分员可靠性的总数量的3倍,因为每个评分员可靠性的研究编码为3倍。因为这个筛选练习中的编码偏向于排除,任何一个分歧都会对k统计量产生不成比例的大影响。然而,对于研究2,表3表明有利于排除研究的偏斜度稍小。这部分解释了这样一个结果,即尽管与随后的评分员可靠性有更大的百分比一致性,但k统计量可以反直觉地向相反的方向移动。

  仔细观察单个编码者的行为和三个编码者之间的讨论,会发现编码者的行为在三个评分者可靠性测试的过程中发生了变化。对于研究1,编码者A在他们的编码行为中保持相当一致(并且正如我们将在下面看到的那样准确),但是编码者B和C颠倒了他们的编码决策框架——编码者B采用了更具限制性的框架,而编码者C似乎采用了更具包容性的框架。在这种情况下,编码者C的决策可以说是“恶化了”,也就是说,与“约定”编码的一致性在评分员可靠性1和评分员可靠性2上恶化了,但是编码者B的决策在第二个评分员可靠性中与约定编码的一致性比第一个更强。

  研究2中的三个编码员较少参与决策过程,但随着编码工作的进行,他们更积极地改进码本。编码者1在整个三个练习中的决策犯了类似的错误,而编码者3试图修改行为以响应码本的改进,取得了不同的成功,恶化了评分者可靠性2的准确性(表明对改进标准的一些误解),然后极大地改进了评分者可靠性3中编码标准的应用。与此相反,编码员2承认保持相当独立,不受编码标准变化的影响,其行为在三个评分员可靠性上保持相当一致(有一些改进)。

  评分员可靠性(个人准确性)

  表5和表6涉及三个编码者之间的编码准确度。这三个栏衡量每个编码员在协调之前对分歧结果负责的百分比。这被计算为每个独立编码者的不同意见的数量除以该评分员可靠性练习中不同意见的总数。每一栏的分母都是重新统一前的分歧总数。例如,在关于评分员可靠性1的研究1中,14项研究首先缺乏一致性。这些通过讨论或仲裁员进行了调解。表5显示了每个单独的编码员不同意最终协调一致的结果的程度。这两项研究的前两个评分员可靠性的总差异百分比大于100,因为在某些情况下,两个编码者最初不同意最终的协调编码。有趣的是,在第三次评分员可靠性中,对于两项研究,只有一个编码员不同意最终的协调编码,这表明大多数人的意见在这个阶段更准确。

  因此,我们可以看到,对于研究1,编码员B负责评分者可靠性1最初的大部分分歧,但负责较少的后续分歧。值得注意的是,编码员C的决策似乎随着每一次随后的评分员可靠性而“恶化”,但实际上是每一次评分员可靠性中的一两个分歧的原因。然而,重要的是要记住,每次后续练习的分歧数量(分母)会减少。

  对于研究2,编码者1和编码者3在评分者可靠性2和评分者可靠性3中以相反的方向移动,编码者1改进,然后“恶化”,编码者3恶化,然后显著提高其编码准确度。相比之下,编码员2在三次测试中保持相当一致,约占40%的不一致,这表明他们对三次评分员可靠性的感知没有改变。

  评分者可靠性(个人可靠性)

  较少受到研究关注的可靠性的一个方面是评分者内部可靠性(Ashton,2000)。检查评分者内部可靠性的目的是检查单个编码者编码的一致性,也称为测试-重测可靠性,在这种情况下,是原始编码和评分员可靠性编码之间的一致性。这两项研究的第二次和第三次内部风险评估包括所有三个编码员对大约100条记录进行编码,这些记录是从三个编码员已经完成的编码记录中(按比例)选出的。表7和表8分别描述了在研究1和研究2中进行的测试-重测练习的结果。这些测试是在最初筛选活动的一周内进行的——然而,编码员最初在几天内筛选研究,然后是内部评价,由编码员在一次或几天内完成。这使得很难说结果的哪一部分是否以及测量了内部一致性而不是时间可靠性(Ashton,2000年)。第二列和第四列描述了构成评分员可靠性工作一部分但最初由每个编码员编码的报告数量。第3栏和第5栏分别报告了每个编码员在最初的、第二次和第三次评分员可靠性编码练习中的一致程度。

  编码者团队之间的讨论揭示了编码者在编码过程中改变行为(或不改变行为)的有趣方式。在三个编码者中,编码者B在两个评分员可靠性上的编码是一致的。编码员A和C在他们自己的原始编码和评分员可靠性编码之间表现出微小的差异。当尽管标准没有完全满足,或者需要对研究是否可能包含相关信息做出一些推断时,而编码人员更倾向于纳入这项研究时,我们将他们的行为描述为“谨慎”,当他们倾向于严格应用纳入标准时,我们将他们的行为描述为“严格”。另一方面,对于研究2,所有三个编码者的编码行为在第二个和第三个评分员可靠性上有所不同——每个编码者与他们自己的原始编码有更多的分歧。在这种程度上,研究2中的评分者内部可靠性在编码者之间的总体一致性以及每个编码者的表现方面更差。

  因此,我们发现两个研究中所有编码者的编码行为在评分员可靠性期间都发生了变化,当他们重新访问以前编码的研究时。虽然原始编码和评分员可靠性编码之间的时间间隔最多是几周,但行为的变化可以归因于“观察者效应”,也就是说,编码者承认他们经常考虑他们认为其他编码者可能如何编码一项研究,并在评分员可靠性期间相应地改变他们的编码。同样,编码者也表示,当他们关注自己编码决策的后果时,他们会改变自己的行为。换句话说,当意识到他们必须寻找和阅读所有纳入的研究时,他们在标准的应用上变得更加严格,特别是在那些看起来有趣或信息丰富的文章中,尽管他们没有严格满足纳入标准。这可以被视为一个积极的发展,因为这意味着每个编码员在筛选阶段都更加严格地遵守纳入标准。

  讨论

  以前在其他领域的研究提到,缺乏关于评分员可靠性的信息,何时进行,对不一致原因的任何分析,以及如何解决这些问题(Ashton,2000;Lombard人,200年)。如本文前面所述,大多数报告内部评价报告的预防犯罪系统评价没有报告内部评价报告是在什么时候进行的,也没有报告分歧的性质或如何解决的。此外,大多数研究只报告了一个评分员可靠性,这在(通常复杂的)过程中只提供了一个测量点。因此,可以说,评分员可靠性没有得到明确、严格和透明的报告,这是系统评价的三个决定性特征(Gough等,2012)。

  鉴于编码者行为对数据(即“纳入研究”)和提取的数据(即纳入研究中包含的信息)的影响,在系统评价中检查和反思影响决策的人为因素非常重要。本文试图通过对两个不同研究的三个评分员可靠性测试进行报告来实现这一点,这三个测试在筛选过程的三个不同点进行。研究结果表明,随着时间的推移,个体之间和个体内部的编码行为都会发生变化,这对于一项像系统评价一样密集的任务具有重要意义。由于系统评价应该是可复制的,所有决策都应该透明和一致。我们的发现表明了进行定期和系统的评分员可靠性和评分者内部可靠性测试的重要性和必要性,特别是当涉及多个编码者时,以确保筛选和编码阶段的一致性和清晰性。如果在最终报告或出版物中报告评分员可靠性分数,这也是一种良好的做法。

  在定性研究的背景下已经讨论了编码者之间编码行为的差异(见Armstrong等,1997;Campbell等,2013),但很少在系统评价的背景下,因为根据定义,他们应该通过非常明确的纳入标准来排除主观性。它们也被认为是可重复的。然而,这项研究表明,当考虑社会科学中的一个复杂话题时,情况可能并不总是如此。主题的广度、涵盖的学科数量以及标题和摘要传达的信息的模糊性表明,对研究是否相关进行编码的任务通常并不简单。

  良好的评分者内部可靠性和评分者可靠性依赖于良好的培训和任务的标准化。在这两项筛选任务中,都提供了一些基本培训,并试图通过每次评分员可靠性练习对码本进行优化,从而实现标准化。对结果编码行为的观察表明,首先,个体之间和个体内部的编码行为在编码练习过程中发生了变化。其次,根据个人的特点,个人编码者对含糊不清或写得不好的摘要的反应各不相同。一些编码员更有可能严格遵守纳入标准,而另一些编码员则更有可能更加宽容,通过更具包容性来消除疑虑。第三,在这两项研究中,评分员可靠性和随后的讨论对编码者行为的影响是不同的。如果在内部评价报告工作中做出的改进编码的决定没有得到严格记录,那么每个编码者对所做的决定会有不同的回忆。相比之下,在概念被正式澄清和编码本被细化的地方,它有助于决策。此外,随着任务的进展,编码员开始理解其他编码员的行为,并在他们自己的编码决策中受到影响——通常将他们的编码与他们认为其他人可能的编码方式一致化。阿什顿(Ashton,2000)认为,编码的可靠性可以通过一般性讨论来提高,虽然这在大多数情况下是正确的,但我们发现,在某些情况下,小组讨论后出现的明显过度思考有时会适得其反,正如两项研究中个体编码者在三个评分员可靠性任务上的准确性变化所表明的那样。最后,当敏感性优于精确性或特异性时,当编码者倾向于更具包容性而不是严格应用所要求的纳入标准时,大多数分歧就产生了。

  我们的观察和编码员对任务的坦率反思表明,基于评分员可靠性和评分员内部可靠性测试的结果,对不同和可变的编码员行为有几种解释。

  概念的包装

  我们对编码者行为的观察清楚地表明,基于他们的背景、领域知识和研究经验,编码者正在以不同的方式“包装”任务。此外,随着任务的进展,编码者自己对编码模式的理解和当前对研究目的的理解发生了变化,并影响了编码行为,正如毛特纳、帕里和巴凯特-米尔伯恩(Mauthner, Parry, and Backett-Milburn,1998)在几年后重新访问旧数据时观察到的那样,他们以不同的方式看待他们的数据,因为研究的目的发生了变化。虽然在我们的例子中,任务的目标没有改变,但是目标的框架(正如我们将在下面看到的)对于单独的编码者来说确实改变了。

  此外,作为一个独立但相关的观点,我们认为参与研究的程度也会影响对一致性的关注——第一项研究中的编码者投入到这项任务中,因为他们是研究的设计师。研究2中的研究人员可能将编码作为辅助工作的一部分,而没有研究1中方法学家的积极性,他们也不是学科专家,因此对他们的表现产生了负面影响。

  学习效应和疲劳效应

  我们的观察显示了当编码员对相同的研究重新编码时,这两种效应在测试-重测情况下的影响,导致更准确的编码(学习效应)和更多的错误(疲劳效应)。我们的观察表明,在测试-重测情况下有分歧的两个编码员的编码行为方向相反。如上所述,在同一编码者的第一次和第二次编码不一致的情况下,在更多的情况下(60%),他们的原始编码与他们在评分员可靠性中的编码相比是“正确的”。然而,当编码员A在她最初的编码中更加谨慎时,编码员C在评分员可靠性中更加谨慎,也就是说,对于第二个编码员来说,第一个排除了她之前纳入的研究,反之亦然。随后的讨论表明,这并不是因为编码员缺乏关注或他们对决策采取肤浅的方法;相反,编码者从事更深层次的思考(可能是“过度思考”)并为他们的决策辩护,这有时会对决策质量产生负面影响(LeBoeuf and Eldar,2003)。对评分员可靠性行为变化的另一种可能的解释可以归因于三个编码者参与了关于他们的研究态度和决策框架的广泛讨论,从而提高了个体编码者对其他编码者如何做出决策的认识,并受其影响以获得更大的一致性。因此,行为的改变是学习者/疲劳效应的结果,还是仅仅是一种示范效应,即通过观察他人的行为来塑造行为,尚不清楚。另一方面,很明显,第三次评分员可靠性报告中三个编码员之间的分歧归因于人为错误,这是“疲劳效应”的一种表现——不是在测试-重测的情况下出现的,而是编码任务的单调和庞大以及评分员可靠性报告的重复性质的结果。

  框架效应:任务是如何被框定的

  我们发现,个体编码者对筛选任务的框架有所不同。对于那些采用“积极框架”的人来说,这意味着如果纳入标准严格适用于筛选过程,那么只有相关的研究将被纳入。此外,如果同样的任务是“消极框架”,其含义是,误用纳入标准的结果将导致不得不寻找和阅读大量不相关研究的全文。

  在这种情况下,编码任务的背景框架决定了任务如何被不同的编码者理解和操作。虽然一些编码人员从字面上解释任务,倾向于遵守规则,并严格遵守编码本,但其他人更注重确保它们包括所有可能的相关信息,并愿意对标题和摘要中可能暗示的内容做出推断。这不仅可以归因于他们进行系统评价的经验,还可以归因于他们对研究的个人态度。这就是研究者的焦点是基于任务还是面向目标。因此,编码员的态度被发现是连续的,在一端,编码员可能会考虑严格和坚持地遵守纳入标准本身作为一个目的,而在另一端,编码员可能会认为实现研究目标更重要,因此更倾向于忽略纳入标准纳入似乎有希望或模糊但似乎相关的研究。在研究1的任务开始时,编码员B表现出“规避风险的行为”,在她的选择中更具包容性,并承认这是由于不愿意错过任何可能相关的研究。然而,编码员A展示了卡尼曼和特沃斯基(Kahneman and Tversky,1982)所说的“寻求风险的行为”,因此她并不担心错过相关的研究。她承认自己很有信心,因为被错误排除的相关研究可能会通过其他搜索策略(如引文分析)被发现,她倾向于将查找和编码最终纳入研究样本的时间和资源降至最低。

  顺便说一下,对于研究2,在初始阶段强调了敏感性和确保覆盖的必要性。因此,编码员对纳入标准的解释相当宽松和包容,但随着任务的进展,这种包容意味着大量研究开始被编码到“纳入”堆中。编码者很快意识到,他们将不得不对最终纳入的研究列表进行源编码和编码。因此,随着任务的进展,编码员在应用纳入标准时变得更加严格,不太愿意对措辞含糊不清的摘要进行研究。总的来说,“目标框架”(Levin, Schneider, and Gaeth,1998)似乎对编码者理解编码任务的方式有影响。因此,当严格适用标准的任务以积极的措辞提出,以确保所有相关研究都被纳入时,这似乎不如当编码者被说服这样做意味着一些相关研究可能因为摘要不明确而被排除在外时产生的影响大。相反,积极设定的目标(100%纳入所有相关研究)的影响小于消极设定的结果,即寻找和阅读所有纳入的研究。

  人际动力学

  研究1的编码员承认他们的行为受到团队中其他编码员行为的影响。例如,编码员A和B是各自领域的专家,他们在为自己的决定辩护时相当直率,同时承认对方的专业知识。编码员C对这个领域和任务来说是新的,因此最受一致性谈判时提出的观点的影响。也许结果是,C编码者随后的编码行为在这三次测试中恶化了。这意味着有时客观编码会更准确,而人际动态会对这种客观性产生负面影响。相比之下,在第二项研究中,所有三个编码员都是同一主题的新手,并揭示了他们不受其他人如何编码的影响——因此,他们的错误可以归因于任何一个编码员影响之外的因素。

  先前的一项研究表明,由于尊重、恐吓或缺乏信任,编码员地位的差异会导致地位较低或专业知识较低的编码员向更有经验的编码员屈服(Campbell等,2013)。然而,在这两项研究中,编码员的地位是平等的,但是在研究1的谈判过程中,经验的差异可能会对编码员的一致性产生任何影响。同样,研究2中仲裁员和编码员之间的地位和经验差异可能影响了谈判过程。

  缺乏审计跟踪和人为错误

  尽管打算更新编码本(在第一项研究中,在第一次和第二次评分员可靠性之间)但没有人真正记录早期评分员可靠性中做出的决定,因此每个编码者都带着他们对讨论中达成一致的独特理解离开了。当第二次评分员可靠性出现同样的问题时,这些对商定内容的不同解释和回忆造成了混乱。因此,记录每一个决策的重要性,保持“审计跟踪”(迈Miles and Huberman,1994)和坚持改进的编码本来指导行为被强调。最后,两项研究的最终评分员可靠性中几乎所有的分歧都归因于人为错误。当编码员显然在标题或摘要中遗漏了一些相关信息,或者误解或误读了现有信息时,他们公开承认了这一点。例如,在研究1的最终评分员可靠性中,编码员A和B排除了一项研究,因为标题表明这是一项针对健康相关结果的干预措施,但在协调工作中,编码员C指出,摘要中的信息间接表明一些犯罪结果可能已经得到衡量。同样,编码员B和C根据摘要排除了一项研究(因为方法不清楚),但没有观察到研究标题宣称它是一项荟萃分析。编码者无法确定这些错误是由于疲劳还是简单的疏忽。

  结论

  这项研究的双重目的是,第一,通过在整个编码过程中定期进行内部评价,确保和提高编码的准确性和精确性,第二,证明系统评价可能不如以前所承认的那样可重复。结果强调了在各个步骤中决策的主观性质,包括筛选纳入研究的相当简单的阶段,即使在明确的纳入标准已经制定之后。认识到这种主观性是努力使编码过程系统化和透明化的第一步。在定性研究中使用多个编码者已经认识到困难(Campbell等,2013);然而,系统评价编码中涉及的主观性很少被承认或提及为评价质量的可能限制。然而,我们进行系统评价的经验表明,双变量筛选过程(纳入或排除研究)本身具有内在的主观性,没有理由假设这种主观性不会延续到评价后期的其他编码决策。因此,这项研究说明了承认个体编码者的主观性和判断力可以影响系统评论的重要性。这可能与社会科学特别相关,因为概念通常很复杂,并且在多个学科中以多种方式进行讨论。

  这项研究的结果表明,需要创建一个详细的编码本并进行后续完善,以澄清复杂的概念并帮助决策。它进一步指出了在编码过程的不同阶段进行内部评价以监测编码者偏差的重要性。它强调了当涉及多个编码者时,检查编码的准确性和精确性的重要性。开展适当的评分员可靠性工作的重要性在于确保质量控制和编码决策应用的一致性;在这个过程中,可以通过反思和小组讨论来改进决策。类似地,采取合理的步骤,如定期休息和确保小批量编码,可能会减轻疲劳的一些不良影响。虽然方法论文献将一些注意力集中在如何减少研究者疲劳(Clark,2008),但减轻研究者疲劳(例如Mandel,2003)在方法论教科书和开展研究的手册中很少被提及。

  最后,在预防犯罪和社会政策方面,特别是在英国,走向循证实践的趋势意味着对社会科学领域系统评价的需求日益增加。按照科克伦协作的思路进行系统评价的报告指南和医学科学系统评价和荟萃分析(PRISMA)指南的首选报告项目以政策和实践信息中心证据和社会科学坎贝尔协作指南的形式存在。话虽如此,这些指南都没有解决多作者评价的研究者之间的可靠性问题。这是在“相对年轻且发展迅速”的系统审评领域提高报告质量需要克服的诸多挑战之一(Gough等,2012)。

  总之,研究表明,个体编码者的可变性存在于编码者内部和之间。因此,为了使系统评价系统和严格,并确保得出的结论有效,重要的是确保纳入标准透明和明确。此外,在编码过程中适当的时候制定措施,如完善编码本和进行评分员可靠性测试,以确保编码决策的可靠性和一致性,应成为系统评价报告指南的一部分。