Maxent模型
由史蒂芬·菲利普斯、米罗·杜迪克和罗布·夏皮尔在普林斯顿大学美国艺术与技术与技术研究所实验室研究部和美国自然历史博物馆生物多样性与保护中心的支持下编写的物种地理分布最大熵建模项目。
感谢以下自由软件包的作者,我们在这里使用:ptolemy/plot, gui/layouts, gnu/getopt and com/mindprod/ledatastream.
此页包含 MaxEnt 程序的参考信息。 有关该方法的背景信息,请参阅以下两篇论文:
Steven J. Phillips, Robert P. Anderson, Robert E. Schapire. Maximum entropy modeling of species geographic distributions. Ecological Modelling, Vol 190/3-4 pp 231-259, 2006.
Steven J. Phillips, Miroslav Dudik. Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation. Ecography, Vol 31 pp 161-175, 2008.
物种的模型由一组环境或气候层(或"覆盖")确定,该层为景观中的一组网格细胞,以及一组
已观测到该物种的样本位置。 该模型将每个网格单元的适用性表示为该网格单元环境变量的函数。 特定网格单元中函数的高值表示网格单元预测具有该物种的合适条件。 计算模型是所有网格单元格的概率分布。 选择的分布是受某些约束影响的最大熵分布:它必须对每个要素(从环境图层派生)具有与样本位置平均值相同的期望值。
输入、输出和参数
输入文件、输出目录和算法参数可以通过用户界面或在命令行上指定。 用户界面最适合执行单次运行,而命令行可用于重复运行或自动执行一系列运行,以及输入集中的变体。
输入:
样例。
由逗号分隔值格式的文件给出。
正则化的约束条件第一行是标题行,而后一行具有格式:物种、经度、纬度。
例如
物种 | 经度 | 纬度 |
Blue-headed Vireo | -89.9 | 48.6 |
Loggerhead Shrike | -87.15 | 34.95 |
任何数量的物种都可以在同一文件中表示。 在开始运行之前,可以选择或取消选择单个物种,并且只有选定的物种将建模。
环境层:
由包含图层的目录给出。 图层必须采用 ESRI ASCII 网格格式(如下所述),文件名以".asc="结尾,或者以".grd"结尾,文件名以".grd"和".gri"结尾。默认情况下,目录中的所有图层都用于建模,但在开始运行之前可以取消选择单个图层。每个图层可以是连续的(具有实数或整数值)或分类值(具有少量离散值)。
环境层也可以在 SWD 格式文件中给出,如下所述。
SWD(带数据样本)格式。 可以直接在 .csv 文件中给出环境变量的样本值,如下例所示:
然后将此文件用作示例文件。 值 -9999 被解释为 NODATA,如果某些样本缺少某些环境变
量的数据,则应使用该值。 "X+"和"Y"字段用于地理坐标,但如果在 SWD 格式文件中提供所有环境数据,则 MaxEnt 程序不会使用这些字段。以类似的方式,也可以使用相同的格式为一组背景点提供环境数据,例如:
然后使用带背景数据的 SWD 格式文件来代替环境图层目录。对于背景数据,将忽略"物种"列(我们仅使用"背景"以明确起见),以及包含 NODATA 值的任何行。 两种格式可以混合:示例可以以 SWD 格式指定,背景数据以网格提供。 但是,如果背景数据以 SWD 格式提供,则样本也必须提供。
投影目录
包含第二组环境图层的可选目录(或 SWD 格式文件)。 图层的名称必须与"环境图层"目录中的名称相同,尽管它们可能描述不同的地理区域。 投影过程如下所述。
算法参数:
要素类型
环境层用于生成"要素",从而约束正在计算的概率分布。
可用的要素类型是线性、二次、产品、阈值和离散。 使用"自动特征"允许使用一般经验派生规则,使用一组用于依赖于所建模物种的存在记录数的要素集。
线性要素约束每个物种的输出分布,使每个连续环境变量的期望值与该物种的样本位置相同。 线性要素只是连续环境变量之一。
二次要素(与线性要素一起使用时)约束输出分布,使环境变量的期望值和方差与样本相同。 二次特征是连续环境变量之一的正方形。
产品特征是两个连续环境变量的产物;当与线性和二次要素一起使用时,产品特征会限制输出分布,使每对环境变量的协方差与样本相同。
阈值特征派生自连续环境变量。 对于阈值 v,阈值要素为二进制要素(采用值 0 和 1),当变量的值大于 v 时为 1。 阈值要素的效果是使值大于阈值的网格单元格的总概率等于值高于阈值的样本位置的分数。
铰链特征还源自连续的环境变法。 它就像一个线性要素,但它的常量低于阈值 v。
自动为每个选定的分类变量创建离散要素。 对于每个分类变量的每个可能值,将创建一个要素:值 v 的要素是二进制的(采用值 0 和 1),当变量具有值 v 时为 1。 离散要素的效果是使具有分类变量特定值的网格单元格的总概率等于具有该值的样本位置的分数。
控制参数。 在主接口或"设置"面板上有许多可用的控制参数。如果将鼠标指向控件参数,描述其效果,则将显示工具提示(小文本说明)。
输出:
所有输出文件都写入输出目录中。最大运行的摘要在maxentResults.csv 列出了用于学习的训练样本数、训练增益和测试增益值以及 AUC。 只有在提供测试样本文件或将指定的样本百分比预留用于测试时,才给出测试增益和 AUC。 如果执行千斤顶刀,则此处包括千斤顶刀每个部分的正规化训练增益和(可选)测试增益和 AUC。
maxent.log 记录为运行选择的参数和选项,以及可用于故障排除的运行的一些详细信息。
此外,maxent 可为每个物种生成多个文件。对于一个叫做我物种的物种,它产生文件
mySpecies.html 是主输出文件,包含统计分析、绘图、模型图片以及指向其他文件的链接。 它还记录用于运行的参数和控制设置。
mySpecies. asc (或 myse, grd) 包含 Esri Ascii 网格格式的概率 (或使用 - h 开关的 Diva - gis 格式)
mySpecies. lambdas 包含常量 c1、 c2 的计算值...(如下所述)
mySpecies. png 是预测的图片
mySpecies_omission.csv 描述各种原始阈值和累积阈值的预测区域和培训以及(可选)测试遗漏
在绘图子目录中,用于千斤顶和响应曲线的各种绘图。
预测分布的输出格式为原始、逻辑(默认值)或累积。对于原始输出,输出值为概率(介于 0 和 1 之间),因此在训练期间使用的所有单元格上的总和为 1。因此,典型值非常小。对于逻辑输出,值再次成为概率(介于 0 或 1 之间),但以非线性方式放大,以便于解释。如
果在训练期间使用的典型存在来自环境条件,其中存在概率约为 0.5,则逻辑输出可以解释为预测存在概率(否则,它们可以解释为相对适宜性)。如果 p(x) 是环境条件 x 的原始输出,则对于 c 的特定值(即原始分布熵的指数),相应的逻辑值为 c p(x) / (1 = c p(x))。对于累积输出格式,网格单元格中的值是所有网格单元格的概率之和,其概率不高于网格单元格,即 100 倍。 例如,根据模型,预测为具有该物种最佳条件的网格单元将具有累积值 100,而接近 0 的累积值表示对不适宜条件的预测。
ESRI ASCII 网格格式
(从电弧工作站 8.3 帮助文件复制)
ASCII 文件必须包含包含一组关键字的标头信息,然后是按行主要顺序排列的单元格值。文件格式为
[Ncols x] [Nrows x] [Xllcenter x] Xllcorner x ] [Yllcenter x] Yllcorner x] [细胞 x] [细胞 x] [NODATA_VALUE x] 第 1 行 2... 行 n
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论