生态和进化科学中性状数据获取和实践的十条简单规则

性状已经成为生态学和进化科学的一个重要组成部分,用来帮助研究人员理解生物体的形态、生理、生长和生活史的功能,对适合度、行为、与环境的相互作用和生态系统过程的影响。然而,测量、汇编和分析性状数据伴随着数据科学的挑战。

本文中,作者提出了10条简单的规则,以提供一个对"性状数据生命周期"进行决策的指南。文章本身也是受到其最后一条规则(“宣传良好的实践”)的激励而成的。它的目的是让人们认识到如何收集和管理生物体的性状数据,供学界再利用。

性状观察与田野生物学家、综合生态学家、进化生物学家、计算机科学家和数据库管理人员等广泛的跨学科群体有关。作者希望,这些基本准则可以作为传播这种综合知识,以及如何使性状数据面向未来的积极交流的开端。作者邀请科学界在Open Traits Network上参与这一努力。

早在公元前 300 年,希腊哲学家(如 Theophrastus)就建立了第一个正式的系统,根据生物的形态、生理、行为和物候特征的组合——即它们的性状——对生物进行定义和分类。了解一个生物体的性状,通常可以更深入地了解它的生活史、行为、健康状况、生物相互作用以及对生态系统过程的潜在反应和影响。性状还可以更好地理解生态和进化模式背后的过程,并提供不同维度之间的桥梁:从有机体生物学(例如种群丰度、物种分布和系统发育)到生态系统功能。

性状通常被定义为一个实体的量度,其中实体可以是整个个体,也可以是一个特定的器官或组织(如一条鱼,它的尾鳍或木材),数量/数值是该实体的一个可观察的特征(如一条鱼的长度或颜色,它的尾鳍长度或木材组织的密度)。一个生物个体的所有性状加在一起代表了它的表型,表型是基因型的历史演变和当前与环境的潜在相互作用的结果。因此,性状记录不仅要告知被观察的实体(如分类学分类或年龄)和被测量的数量/特征,还要告知个体形成该性状的环境,例如,一条鱼在哪里被捕获,一棵树在哪里生活,或者观察到的无脊椎动物的土壤深度。

有许多方法可以描述和测量生物体的性状。例如,一个植物的叶子可以由几百个可测量的特征(measurable characteristics),或 "性状(traits)"来描述。这些特征包括表面积、钠浓度、物候和最大光合速率。一方面,一个个体的不同性状往往是相关的,例如,一棵树要长高,通常需要一个粗大的茎。在如何收集(如在同一棵树上)和存储数据时,认识到这些相关性是至关重要的。在这种情况下,为了使性状记录有意义,它需要与多个性状测量的组合相联系。相反,一个性状记录也可以相当简单,如果给定的性状定义明确,如果它 "只"取决于基因型,或者如果它不受当前与环境的交互影响。

从本质上讲,性状数据是一种特殊的数据:它们是多种多样的(如分类或数字,有多种单位),相对简单(如长度)或潜在的复杂(如行为特征),基本上相互独立(如鱼的颜色)或与其他性状相关(如大脑和身体质量),并且测量起来便宜或昂贵(如简单颜色 vs 代谢组数据)。然而,它们的信息量很大,因为它们代表了生物个体对环境的进化适应性或发展适应性,并允许进行定量和预测性的生态学和生物多样性研究。因此,如果以有意义的方式收集、储存和发布,生物体性状数据具有非凡的再利用价值,例如,自2015年以来,对TRY植物性状数据库的数据请求超过20,000次。

为了使性状数据在其原始研究活动之外还能重复使用,使其在其他背景下有意义,并避免数据退化,必须清楚地定义观察记录,在可能的情况下给出环境背景,以及记录出处和收集的采样和测量协议。最近为扩大整个生命树的性状知识所做的努力,要求数据集是开放的和FAIR(可查找、可访问、可互操作、可重用(Findable, Accessible, Interoperable, Reusable)),这些基本原则是新兴的开放科学运动的核心。

自20世纪90年代以来,全球和地方的生物体性状数据集迅速增长。然而,这些数据集承担着与协调、偏见、专业知识和沟通有关的各种新挑战。这些挑战导致在投资收集新的性状数据或重复使用开放的性状数据之间的重大权衡。事实上,许多基于性状的研究重复使用现有的性状数据,或收集额外的性状数据和/或组装新的数据(例如Kattge等人,2020年的例子)。因此,这些研究也经常涉及连接不同类型的数据,这需要数据集之间的互操作性。

这些关键方面只是说明研究人员在收集和处理性状数据时,如何以及为什么要做出生物学决定,以及广泛的数据科学选择的几个方面。性状数据结构和操作的多种复杂性乍一看并不明显。例如,有时会出现混乱,对性状标准、测量单位缺乏认识,性状数据在记录、语言翻译和理解上特别容易出现错误。通过提供一个更大的视角,"性状数据生命周期 (trait data life cycle)"(即专门针对性状数据的数据生命周期/Rüegg, J. et al., Front. Ecol. Environ. 2014)可以帮助澄清这些困惑,并告知使用性状数据时的良好做法(图1)。

在本文中,作者强调了性状数据使用中的一些常见误区,并提出了10条规则,以便在考虑性状数据的整个生命周期后做出关键决策。作者在每条规则的开头都做了简单的说明,并在更详细的小节中阐述了每条规则的复杂性(从略)。

规则1: 选择正确的性状

1.1 遵循假设

1.2 考虑尺度

1.3 了解现有的性状定义和同质性

1.4 务实和透明

根据你的研究问题或假设,决定要使用的性状以及如何收集和分析这些性状。明确的、预先的性状定义将避免错误,例如尺度和定义的混淆、数据空白或包含不充分的性状。

规则2:查询现有数据(库)

2.1 检查现有数据库

2.2 识别和引用数据的来源

2.3 填补空白

以现有的性状资源为基础,减少冗余的可能性,确保与现有数据的兼容性。何时收集新的性状数据,一般是根据研究问题、分析尺度(如本地、全球)和现有数据的可用性来决定的。财政和地理上的限制也会影响使用现有性状数据而不是开展测量活动的决定。然而,现有的性状数据必须是 "适用的",以避免影响回答研究问题的能力,在许多情况下,仍然需要新的性状测量。

规则3: 依靠已有的性状测量的标准协议,并了解数值的单位

3.1 谨防歧义

3.2 遵守现有标准

3.3 理解数值单位

为了确保可比性、未来的数据再利用和综合,将性状的主要测量与更广泛的已发表的性状数据联系起来。使您的测量程序符合现有的性状测量协议,或者——如果没有这样的标准协议——精确地记录并建立在准确的概念之上。另外,在记录和报告单位方面的混乱和错误会在大型性状汇编中传播开来。因此,明确定义你的单位;它们对于协调不同的性状数据集、近似值和不确定性至关重要。

规则4: 背景是关键

4.1 至少要定义最低限度的背景

4.2 如果可能的话,涵盖特定领域的标准

4.3 通过元数据链接到其他数据

始终将你的数据点与元数据(metadata,用于描述数据属性的信息)配对。采样协议最好也能定义元数据,这些元数据可被视为测量程序的协变量,或告知用户性状数据的来源。与性状测量一起,元数据定义了一个观测值及其背景。虽然这种元数据对于近似的研究问题可能已经是必要的,但它进一步帮助未来的用户更好地理解和复制方法,并正确解释性状值。现有数据集的重用价值随着元数据的数量和质量而增加,因此,具有足够背景信息的数据集更有可能在未来的综合分析中被重用,或被纳入更广泛的数据库。

规则5: 结构化性状数据

5.1 性状数据的最低标准

5.2 保存元数据和一起记录的进一步观察结果

5.3 应用版本控制

不要低估你的数据集结构的重要性。乍听起来,考虑如何构造数据是微不足道的,但结构不良的数据可能会成为下游分析中的噩梦,或重新格式化以发表、存入公共数据库或在meta分析中综合。因此,即使在使用性状的项目的早期阶段,考虑结构方面也是有意义的。

规则6: 检查和处理

6.1 统一性状数据

6.2 必要时进行过滤,反复检查数据背景

6.3 从原始数据中推导出性状

6.4 汇总性状数据

6.5 适用时进行转换和标准化

6.6 用相对误差工作

在数据处理的每个步骤中,严格检查你的数据质量、完整性和兼容性。基于性状的分析,主要是当数据从不同的来源整合时,可能存在各种固有的不兼容性,可能导致偏见和严重的科学误解。对于性状汇编,通常需要对数据进行统一、子集、转换、衍生和/或汇总成可比较的格式,以适应研究问题。只要有可能,步骤必须是脚本化的,可直接复制的,如果没有,人工步骤应该有很好的记录。

规则7: 了解局限性

7.1 注意层次(器官、个体、种群、物种和群落)

7.2 谨慎对待分类性状

7.3 不要混淆性状指标中的丰富度(richness)和丰度(abundance)信号

7.4 谨慎处理相关关系

7.5 考虑对系统发育相关度的校正

7.6 对变异性和不确定性的说明

关注性状数据分析最佳实践的最新发展。由于数据分析的下游部分与研究问题直接相关,分析方法的通用化可能性很少。鉴于研究问题的多样性,分析步骤因此会有广泛的分歧。然而,以下概念可以帮助识别由于性状数据的性质而产生的一些常见错误。除此之外,参考与特定领域和主题相关的文献,它们可以提供适当的解决方案。

规则8: 将性状数据与元数据一起发布

8.1 考虑利益相关者

8.2 接受额外的责任

8.3 力求冗余

8.4 让机器和人类都能获取数据

8.5 登记性状数据(如在Open Traits Network)

公开发布性状数据,以促进回答其原始研究之外的未知问题,为理解明确的生态位之外的生态过程奠定基础,并使获得有价值的性状数据集的途径民主化。性状测量的每个数据点对科学界和从事性状相关研究及以后的问题都有相当的价值。

规则9: 像评议研究本身一样审查数据和代码

同行评议的最佳实践已经被详细讨论过了,但也许可以用以下语句来概括:"要有礼貌、公平、具体和建设性"。审稿人应提供信息供编辑部决定;这个过程也适用于数据。具体到基于性状的论文,它包括考虑性状数据的整个生命周期。

  1. 首先,性状本身对于所提出的问题是否合适?应该考虑这些性状在过去是如何被使用的,以及它们如何与生物学理论相适应。它们是否被适当地背景化,是否适合于它们被使用的目的?
  2. 数据是如何收集的?协议是否符合当前的标准,要记住许多论文的目的是为了提高标准,所以它们可能不符合标准?新数据的收集是否有充分的理由?单位和元数据是否正确提供?
  3. 数据是如何处理的?不仅要考虑质量保证和质量控制,还要考虑性状如何被普遍处理成可以分析的格式。确保相关的代码(从简单的清洗脚本到全功能的分析管道和模型)是公开的、实用的,并且符合社区标准。像rOpenSci社区或The Journal of Open Source Software的源代码审查指南可能会有帮助。
  4. 确保区分收集的 "原始 "数据和用于分析的 "干净 "的最终产品,并确保两种形式的数据都被发布。
  5. 确保适当地引用所有的数据来源,并解释数据的出处。

虽然这些标准适用于所有的稿件,但是应该对数据论文和研究论文进行区分。两种类型的出版物的数据发布标准是相同的。然而,对展示数据清洗和概念新颖性的期望在两者之间可能有所不同(但最终是由期刊的指导方针决定的)。

规则10: 传播良好的实践

10.1 培训学生

10.2 培训同事

10.3 培训世界

将这里和其他资源中讨论的问题告知社区和下一代生态学家。如上所述,在测量、收集、处理、分析和发布性状数据,即性状数据的生命周期中,有几个问题需要注意。有些可能是直接的;有些则需要更多的技术知识或广泛阅读现有资源。在许多情况下,好的程序没有被应用,仅仅是因为生态或进化科学家不知道它们的存在,例如,在性状质量控制或使用标准结构方面。教育可以从与同事的非正式谈话的小范围内进行,到教一个大型的本科班,直至参与集体创造多种语言的开放材料,从世界的任何地方都可以获得。

在生态学教科书和生态学课程的模块中整合特定性状数据的部分,可以成为一种标准的做法,通过传播性状科学界的开放存取材料,无疑会使其更容易获得。欢迎你在教你的学生、同事和朋友时,将这10条规则作为一个开端。如果要深入了解每一个主题,我们鼓励你也查看更全面的资源,如《基于性状的生态学手册》(de Bello, Carmona, et al., 2021)或开放性状网络的活动(https://opentraits.org; Gallagher et al., 2020)。

总结

本文本身也是受到它最后一条规则所激励而成的,目的是让社会各界认识到性状数据的生命周期的不同方面。大多数从事性状研究的科学家,通常只是性状数据生命周期众多方面——从生物理论和田野研究到计算机科学、出版和审查伦理——中的一个或几个方面的专家。此外,目前的数据基础设施、定义和方法,主要在各领域之间工作时可能会造成限制。

在处理性状数据时,身处一个由田野生物学家、综合生态学家、进化生物学家、计算机科学家和来自广泛分类范围的数据库管理员组成的跨学科社区,“我们”受益良多。这使得“我们”可以开发工具、方法和基础设施,以可互操作的方式连接整个性状科学。

作者希望这些基本准则可以作为一个启动器,在传播这种综合知识和如何使性状数据面向未来方面进行积极交流。

展开阅读全文

页面更新:2024-04-27

标签:性状   规则   生物体   数据   生态学   生命周期   测量   定义   生态   背景   简单   科学   标准

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top