介绍
当植物遇到不利条件或抑制新陈代谢和生长的因素时,它们就会遭受疾病。当植物在不利的环境下长期过度劳累时,会遭受不可逆转的伤害,甚至死亡。植物胁迫是由两种类型的环境条件引起的:生物胁迫,或生物,如真菌、细菌和昆虫,以及非生物胁迫,或非生物因素,如干旱、盐度和矿物质缺乏植物应激源极大地损害了农业生产力。这些有害生物会加剧作物产量损失,损失范围为 26.3% 至 40.3%。基于一项研究估计,全球农业产量的 37% 因害虫和病原体而损失,而 13% 则因昆虫而损失。此外,作物营养缺乏危及超过 20 亿人的粮食安全,导致作物产量减少高达 70%。精准农业致力于通过促进更好的资源利用并不断增强粮食供应的可持续性来解决这些问题。已被广泛证明,精准农业是简化害虫管理和营养监测系统不可或缺的组成部分。
人工智能(AI)因其不断创新和利用强大的应用程序来解决传统计算机系统和人类无法成功处理的复杂问题,不断增强其在各个领域的影响力。人工智能的日益普及对于精准农业来说也不例外。事实上,数据驱动的人工智能应用对该学科做出了重大贡献。例如,机器视觉系统在除草剂、牲畜和农作物的控制方面有着广泛的应用。为了让人工智能随着时间的推移不断学习并提高准确性,大量易于访问的数据是必不可少的。然而,在精准农业中,与数据收集和注释以及实验室分析相关的工作量和成本使得数据集准备工作非常艰辛(Lu and Young,2020)。相反,开放获取数据缓解了这种复杂性。因此,它可以刺激新项目并确保可重复的结果。
PlantVillage 数据集自首次亮相以来一直是与植物胁迫识别相关的计算机视觉任务的支柱。迄今为止,最大的叶子图像公共数据集是 PlantVillage 数据集,该数据集由 54,309 张健康和不健康的叶子图像组成,按物种和疾病分为 38 个类别。与番茄相关的努力可以帮助理解 PlantVillage 的范围。由于该馆藏包含最多的番茄图片,因此大量研究致力于番茄害虫和病原体的识别。TensorFlow 是 Python 的开源机器学习框架,具有两个植物病害数据集:PlantaeK和 PlantLeaves。PlantDoc 数据集包含互联网整理的 13 种植物的 17 种疾病的图像。还有一些特定作物的开放获取档案,用于处理水稻营养缺乏症。然而,显着的研究差距仍然存在。
实际上,单片叶子可能会表现出多种不规则性。然而,没有农业数据集在一个镜头中包含多个标签或类别。除了西红柿之外,PlantVillage 数据集还包含其他两种蔬菜,但所有记录的农作物和植物都在美国广泛种植。根据粮农组织的评估,大约有 6000 种植物物种被生产用于食用,其中 200 种植物在全球范围内提供了相当大的粮食数量。因此,仍然存在无数的作物异常现象需要解决。在 PlantaeK 和 PlantLeaves 数据集中,完整的图片集仅分为两大类:健康的和患病的。PlantDoc 数据集的问题是植物可能会受到压力而不会显示可见的迹象。因此,它引发了一些关于标签可靠性的问题。最后,没有包含多种作物的非生物和生物胁迫图像的公共数据集。
为了免费获取、专家注释的健康、营养匮乏和受害虫损害的叶子照片集,我们提出了一个包含孟加拉国主要作物的数据集,即番茄 (Solanum lycopersicum)、茄子 (Solanum melongena) 、黄瓜( Cucumis ) sativus)、苦瓜(Momordica charantia)、蛇瓜(Trichosanthes cucumerina)、脊瓜(Luffa acutangula)、冬瓜(Benincasa hispida)和葫芦(Lagenaria siceraria))。该数据集包含 4,749 张高分辨率 (3024 x 3024) 图像,分为 57 个不同类别。该收集除了加强上述作物的病虫害管理外,还旨在填补作物营养缺乏领域的数据短缺。
我们的数据集的主要贡献包括:
● 农业领域数据集中类别数量最多的。
● 农业领域第一个多标签分类挑战。
● 首个开放获取数据集,可同时涵盖多种作物的生物和非生物胁迫症状,建立植物胁迫识别的基准。
数据收集和标签
2022年3月17日至2023年5月5日,我们使用iPhone 13 Pro Max从位于加济布尔的孟加拉国农业研究所(BARI)的观测田采集了5000个叶子样本。我们仅使用主 12 MP 广角摄像头和 f/1.5 光圈镜头。除了曝光设置为-1之外,我们在拍摄照片时没有修改任何默认参数。之所以确定这一点,是因为当图像过度暴露在阳光下时,计算软件系统会改变镜头,使树叶与肉眼看到的完全不同。图像以 1:1 的纵横比直接从头顶上方拍摄,分辨率为 3024 x 3024。闪光灯已关闭。
我们选择在自然光照环境而不是受控环境中收集样本,以确保在数据集上训练的算法的通用性。我们在自然光充足的田地附近设置了数据收集设备——一张桌子和一个安装在三脚架上的相机。在一天的数据收集过程中,我们使用数字 LX1330B 照度计监测照度。我们通过以下方式避免偏差:首先,在不考虑特定植物胁迫的情况下随机采样;其次,为每种作物保持从桌子底座到手机摄像头的相同高度。相机与树叶/桌子之间的确切间距如下所示:
● 冬瓜 - 22.5 厘米
● 苦瓜 - 14 厘米
● 葫芦 - 27.5 厘米
● 黄瓜 - 24 厘米
● 茄子 - 23 厘米
● 葫芦 - 23 厘米
● 蛇瓜 - 22 厘米
● 番茄 - 15 厘米
我们没有拍摄具有复杂背景(包括几片叶子、土壤和其他植物元素)的植物叶子,而是一次采样一片叶子,并将其放置在具有均匀黑色调的缎纹织物上。在我们的数据集中,我们遇到了作物异常的早期阶段,此时很难通过视觉发现差异性状。这种复杂性要求只有连续的一片叶子才能形成一致的背景,从而使不同的特征更加明显。此外,PlantVillage 数据集 ( Hughes et al., 2015)被广泛认为是自动化植物病害识别的黄金标准,依赖于灰色或黑色纸张作为背景。因此,我们使用了类似的方法,同时为每个快照使用相同的黑色缎布。此外,我们观察到黑色背景强调了症状的颜色,同时确保不会形成阴影以引入场景复杂性。最后,研究人员经常实施分割来从复杂的环境中提取树叶(Luo et al., 2023)。幸运的是,由于统一的黑色背景,因此不需要分割;因此,我们确保了易用性。
采集后,样本被移交给实验室,经验丰富的团队仔细分析并标记每张图像。该团队进行了感知标记和实验室分析标记。在这里,首先对每片叶子进行目视识别,然后进行严格的实验室检查。尽管如此,我们并没有强加任何具体标准,以便团队能够利用其最好的科学知识来执行注释程序,同时最大限度地减少偏差。我们采用这种双重方法有两个原因。首先,植物很容易受到胁迫,无论它们是否表现出任何清晰的视觉线索(McCauley et al., 2009))。其次,到达叶子的阳光有时可能会模仿几种症状的出现,即使植物没有真正受到影响(Barbedo,2019)。由于这些原因,化学分析对于应对挑战是必不可少的。
该注释由两名在该领域拥有超过 15 年专业知识的研究人员(MNU 和 MSH)监督。如果团队成员之间出现分歧,主管(MNU 和 MSH)将利用其专业判断充当调解员。
数据说明
尽管获取了分为 110 个类别的 5000 张照片,但由于类别代表性严重不平衡,我们选择不包含某些类别。例如,葫芦白粉病和茄子蚜虫各只有一份样品。不同作物的缺磷代表数量也不足。因此,我们省略了样本数少于 10 个的类,以避免预测准确性偏向于大多数类。最终数据集包含 4,749 张图像,分为 57 个不同的类别。表 1描述了数据集的全面概述。应该强调的是,数据集是为表1中列出的二级类的分类而标记和设计的。我们提供了广泛的非生物和生物类别作为主要类别,以便研究人员可以轻松理解数据集,并在需要时根据其特定目标和应用对其进行定制。此外,我们还结合了背侧和腹侧表面,因为症状经常出现在两侧。图 1描述了 57 个类别中的几个类别的示例代表。在我们的数据集中,大多数昆虫类别,例如甲虫和螨虫,都显示出害虫侵扰的迹象或症状。然而,在某些情况下,昆虫本身很引人注目。

多标签分类
在农业领域,我们的数据集是多标签分类的先驱,其中多个类别出现在单个快照中。我们提供了两片具有多种应激症状的叶子来演示。图 1显示了黄瓜叶子的中心呈淡绿色,尖端呈黄色,分别表明氮和钾短缺。同样,茄子的叶子上有许多大小不一的凹坑,以及遍布各处的黄色和棕色斑点,表明有甲虫和螨虫侵扰。表格1旨在帮助研究人员识别具有多个标签或类别的叶子。例如,“N Mg”表示缺乏氮和镁,而“JAS MIT”表示叶子同时受到贾西斯和螨虫的侵害。下划线表示图像中存在多个类别,这些类别在数据集中仔细分组和组织在适当命名的文件夹中。
与植物村的对比
我们数据集的主要目标是用于植物胁迫识别。PlantVillage 数据集一直是这方面的基准。尽管如此,研究人员最近实现了 100% 的准确率(Bruno et al., 2022)。我们渴望提供 PlantVillage 的继任者,并提供额外的压力源类别,包括迄今为止尚未开发的农作物和高分辨率照片。
单张照片中存在多个标签,而这是 PlantVillage 集合所缺乏的,这也许是 OLID I 最有价值的方面。我们的数据集与 PlantVillage 的另一个区别是,我们的数据集包含 57 个类别,而 PlantVillage 包含 38 个类别,其中包括 16 个多标签类别。最后,尽管葫芦家族对我们的全球营养需求产生了影响(Rolnik 和 Olas,2020),但我们寻求实现的葫芦胁迫检测研究仍然严重缺乏。
数据使用注意事项
OLID I 可在 Kaggle(Orka 等人,2023a)和 Zenodo(Orka 等人,2023b)上使用。在 Zenodo 中,我们分段上传数据集,以便网络访问权限有限的个人可以更轻松地查看它。此外,我们还提供了一个 Excel 文件,其中包含两个数据库中类别的完整细分。
该数据集的设置相当简单,因为我们将照片放入与正确注释相对应的文件夹中。由于我们选择了持久背景,因此不需要分段。然而,由于数据集不平衡,我们提倡在训练不同的算法之前进行任何形式的增强。例如,Python 中的 Augmentor 包(Bloice et al., 2017)具有水平翻转、90 度旋转、垂直翻转、随机旋转、随机剪切、随机倾斜和随机缩放功能,可用于增加样本大小特定的类并在不影响方差的情况下平衡数据集。此外,生成式人工智能有可能被用来创建高度逼真的样本(Lu et al., 2022)。我们承认,由于高性能设备的稀缺,许多研究人员将无法充分利用高分辨率照片;然而,基于云的解决方案,例如 Google Colab,可以轻松克服这一限制。此外,可以轻松缩放图像以适应资源限制。最后,虽然我们的数据集包含红绿蓝 (RGB) 照片,但颜色转换是一种替代方案,之前已显示出有希望的结果。
结束语
我们相信我们的数据集将鼓励研究人员进行新的尝试,以拓展他们的能力。特别是,该数据集将激发更现实的检测算法,可以识别单张图片中的许多压力源。OLID I 包含大量植物物种和疾病类别,提供了一个具有科学严谨性的数据集,旨在消除数据标签中的疏忽,减少向算法输入错误数据并造成误解的可能性。有效使用我们的数据集将大大改善植物胁迫识别,同时建立对人工智能的信任。