Modelação predictiva da vegetação natural potencial do concelho de Loures
I. INTRODUÇÃO
1. Vegetação Natural potencial (VNP) e os Modelos de Distribuição de Espécies
(SDM)
A Vegetação natural Potencial (VNP) materializa o estádio de máximo
desenvolvimento da vegetação num dado habitat, que ocorreria num determinado
território e suas envolventes se não existisse qualquer influência humana
(Tüxen, 1956; Westhoff e van der Maarel, 1978; Bredenkamp et al., 1998). A VNP
define-se através de comunidades vegetais que atingiram o seu máximo ecológico
estável, estando em equilíbrio com as condições do biótopo (Neto et al., 2008).
Assim, a série de vegetação compreende o tipo de vegetação representativo da
etapa madura ou cabeça de série, as comunidades iniciais ou subseriais que a
substituem, bem como os espaços ocupados pelas comunidades existentes e os
factores mesológicos que configuram os seus habitats naturais (Rivas-Martinez
et al.,1999). No entanto, deve ser salientado que a sua permanência como VNP
persiste até que essas condições se alterem, ou seja, apenas se estas condições
permanecerem inalteradas a comunidade manterá a sua estrutura, composição e
funcionamento interno (Ricotta et al., 2000; Neto et al., 2008; Mucina, 2010;
Loidi e Fernandéz‐González, 2012). Recentemente, a modelação da VNP tem
registado avanços significativos com o desenvolvimento de diversos modelos e
softwarecom grande capacidade de processamento. A sua determinação revela-se
especialmente importante na reconstituição da vegetação natural após acção
antrópica, tendo em conta o carácter predictivo associado ao conceito
(Zampieri e Lionello, 2008; Neto et al., 2008). Com base no cariz relativamente
determinístico do processo de sucessão ecológica e na sua relação com os
principais factores ambientais – climáticos, geomorfológicos e edáficos – é
possível modelar e prever a vegetação potencial para uma determinada área,
através da análise da comunidade vegetal actualmente presente e do conhecimento
das séries de vegetação desse território.
Durante a última década, a europa tem vindo a assistir a uma crescente
consciencialização sobre a importância da cartografia da VNP e sua utilidade
como uma ferramenta para apoiar as actuais estratégias de Ordenamento e
Planeamento do território (Bohn et al., 2003; Cross, 2006; Capelo et al., 2007;
Zampieri e Lionello; 2008, Neto et al., 2008; Mucina, 2010). Os mapas de
distribuição da VNP, e também de distribuição potencial de habitats e de
espécies, representam um importante contributo para as florestas, agricultura,
recursos hídricos, Conservação da natureza e Ordenamento do território. Ricotta
et al. (2002) considera que os mapas de distribuição da VNP representam uma
alternativa ecológica significativa para os modelos neutros de paisagem,
especialmente quando a avaliação dos efeitos da estrutura da paisagem sobre os
processos ecológicos está em causa.
Guisan e Zimmermann (2000), por outro lado, assumem que os modelos predictivos
foram desenvolvidos para abranger aspectos tão diversos como a Biogeografia,
gestão e restauro de habitats, gestão de espécies invasoras, modelação de
comunidades e ecossistemas, predição dos efeitos das alterações climáticas nas
espécies e ecossistemas e, deste modo, a distribuição potencial de uma espécie
ou comunidade constitui claramente o primeiro passo na investigação aplicada.
Nos últimos anos tem-se verificado um aumento crescente da utilização de
métodos estatísticos (análise de regressão e outros), de inteligência
artificial (machine learning) ou baseado em regras (rule-based) com
interligação às tecnologias de informação geográfica, com o intuito de modelar
espacialmente as distribuições de espécies ou comunidades em função de dados
biológicos e ambientais (Gutierres, 2014).
Esta prática é usualmente conhecida como Modelação de Distribuição de espécies
(SDM), podendo também ser referida como modelação do nicho ecológico de
Hutchinsoni, bioclimática, ambiental ou de adequabilidade de habitat
(Gutierres, 2014).
O desenvolvimento de um SDM é suportado em dados de ocorrências de espécies ou
comunidades (podendo ser presença ou presença/ausência) e variáveis ambientais
(predictivas) que se julga influenciar a adequabilidade do habitat, e
consequentemente a espécie ou comunidade (Ferrier et al., 2002a,b; Hirzel et
al., 2002; Franklin et al., 2005; Phillips et al., 2009; Mücher et al., 2009).
Diversos autores (e.g. Guisan e Zimmermann, 2000; Austin et al., 2006) alertam
que a escolha das variáveis preditivas tem uma forte influência no desempenho
dos SDM. Actualmente tem sido destacada a importância de uma melhor e mais
precisa definição das relações dos gradientes directos (variáveis proximais com
efeito fisiológico directo, tal como o teor de água, luz, nutrientes) com a
distribuição das espécies ou comunidades, diferenciadas das variáveis
predictivas indirectas (variáveis distais, sem efeito fisiológico directo, tal
como a altitude, declive e exposição) a integrar no processo de modelação.
Barry e Elith (2006) acrescentam que os estudos actuais de modelação não são
susceptíveis de incluírem um conjunto significativo de variáveis predictivas
proximais (espacializadas). Neste sentido, é recomendado o estabelecimento de
modelos conceptuais que expressem as relações das distribuições bióticas com as
variáveis predictivas distais, devendo ser seleccionadas as variáveis mais
apropriadas em função dos dados de base disponíveis, para que os modelos
apresentem níveis de erro aceitáveis. Contudo, é necessário ter em conta que os
modelos com múltiplas variáveis predictivas poderão apresentar problemas de
autocorrelação espacial, dependência espacial (escalas globais versus escalas
locais) e ainda de multicolinearidade, pelo facto destas variáveis
representarem variáveis indirectas (distais), e não variáveis directas
(proximais) relacionadas com a adequabilidade ou abundância de espécies ou
comunidades (Lennon, 2002; Miller e Franklin, 2002; Diniz-filho et al., 2003;
Segurado et al., 2006; Miller et al., 2007; Dormann et al., 2007; Osborne et
al., 2007; Zhang et al., 2008).
A área de estudo foi seleccionada em virtude da diversidade litológica,
pedológica e topográfica presente, o que determina a ocorrência de uma grande
diversidade de séries de vegetação com comunidades vegetais importantes para
protecção e conservação, incluídas no anexo I da Directiva Habitats. Deste
modo, dada a disponibilidade de informação cartográfica e bases de dados,
justifica-se o interesse do desenvolvimento da modelação predictiva da VNP
neste território exíguo. O outro factor de selecção está relacionado com a
crescente necessidade de disponibilização de cartografia predictiva da VNP a
escalas de grande detalhe, baseadas em abordagens de modelação que possibilitem
a integração de observações directas de comunidades vegetais, e uma
interpretação da distribuição local da VNP ao longo de gradientes ambientais
(Franklin, 2009). McPherson et al. (2006) e Bustamante e Seoane (2004)
descrevem a limitação da aplicabilidade de mapas de distribuição de pequena
resolução publicados em atlas ou guias de campo (caso da Carta da VNP da
europa na escala 1:2 500 000 produzida pelo Institute für Bundesamt fur
Naturschutz (BfN)(Bohn et al., 2003) ou da Carta da VNP para Portugal
Continental à escala 1:1 000 000 (Capelo et al., 2007)) no Ordenamento e
Planeamento do território à escala local. Acresce o facto dos factores
ambientais que controlam a distribuição das espécies e comunidades se
modificarem em função da escala, o que torna difícil a sua redução
(downscaling) e a sua aplicabilidade em pequenas áreas. Ao invés, o carácter
predictivo do SDM permite a obtenção da distribuição das espécies, comunidades
e adequabilidade de habitat, podendo ainda este modelo integrar e responder a
impactos de mudanças ambientais, quer sejam motivadas por alterações climáticas
ou devido às dinâmicas de transformação do uso e ocupação do solo (Wu e Smeins,
2000; Gibson et al., 2004; Rushton et al., 2004; Araújo et al., 2005a; Burgman
et al., 2005; Wisz et al., 2008). Portanto, é fundamental definir o padrão e a
escala de análise (Elton, 1927; Scott et al., 2002), em que o objectivo poderá
basear-se apenas na caracterização geral dos factores que determinam a
distribuição e ocorrência das espécies e comunidades proveniente de cartografia
de referência a uma escala regional ou global ou, por outro lado, no
desenvolvimento de cartografia predictiva desde a escala local à global assente
em diferentes técnicas de modelação (Cumming, 2000; Segurado e Araújo, 2004;
Thuiller et al., 2004; araújo et al., 2005b). No presente estudo, assume-se
que o conceito da VNP é fortemente determinado por múltiplos factores bióticos
e abióticos e a sua utilização visa a inferência ecológica das relações séries
de vegetação-variáveis ambientais com recurso a SDM.
Neste sentido, o presente estudo tem o objectivo principal de produzir a carta
da VNP do concelho de Loures, tal como depreender os gradientes ecológicos
associados às séries de vegetação, com recurso à aplicação de várias técnicas
de modelação predictiva em ambiente SIG. Constitui ainda objectivo testar o
efeito de selecção das variáveis predictivas no processo de modelação da VNP,
de forma a definir modelos parcimoniosos e que utilizem o conjunto mais
apropriado de variáveis. Deste modo, pretende-se contribuir para a definição de
modelos calibrados de adequabilidade das séries de vegetação baseados em regras
de decisão, comparar e testar diferentes alternativas metodológicas e fornecer
orientações para a investigação da VNP a escalas de pormenor.
2. A área de estudo (Concelho de Loures)
A área de estudo desta análise corresponde ao concelho de Loures. Pertencente à
Área Metropolitana de Lisboa, situa-se na margem direita do estuário do tejo a
norte da cidade de Lisboa (fig._1).
Com uma área de aproximadamente 169 km², o concelho de Loures apresenta grande
diversidade morfológica. No sector norte e noroeste predominam as áreas de
maior altitude (de 200 a 400 m) e forte declive, devido à existência de vales
fortemente encaixados por onde escoam o rio trancão e seus afluentes. No sector
sul e sudeste situam-se as áreas mais planas, destacando-se a várzea de Loures
e a frente ribeirinha do tejo. Esta diversidade morfológica constitui um
importante factor explicativo da distribuição da vegetação uma vez que
determina a distribuição das áreas de erosão, acumulação e escoamento de água,
assim como a diversidade de microclimas. De acordo com Magalhães et al .
(2002), podem-se definir três situações morfológicas distintas no concelho de
Loures: a) Zonas adjacentes às linhas de água – áreas planas correspondentes a
solos aluvionares; b) Cabeços – áreas mais expostas aos ventos e à erosão
hídrica; e c) encostas – zonas situadas entre as áreas adjacentes às linhas de
água e os cabeços, caracterizadas por uma forte erosão hídrica e,
consequentemente, uma menor profundidade do solo.
Ao situar-se na bacia ceno-antropozóica do tejo, esta área “apresenta uma
enorme variedade de materiais de enchimento que vão do Oligocénico até à
actualidade. As diferentes formações litológicas exibem afloramentos
superficiais, com extensão e características variáveis. O mosaico de
comunidades vegetais está condicionado pela natureza dos sedimentos que
constituem as várias formações litológicas, sobretudo no que respeita à
granulometria dos materiais e à coesão das partículas.” (Neto et al., 2007:
202).
Em termos biogeográficos, de acordo com Costa et al. (1998) e Rivas-Martínez
(2007), o concelho de Loures insere-se nas seguintes unidades biogeográficas:
reino Holártico, região Mediterrânea, sub-região Mediterrânea Ocidental,
Província Lusitano-Andalusa Litoral, subprovíncia Divisório Portuguesa-Sadense,
sector Divisório Português, subsector Divisório Português setentrional e
Distrito estremenho Português, apenas na parte norte (freguesia de Bucelas) e
subsector Divisório Português Meridional e Distrito Olissiponense na restante
área de estudo.
Do ponto de vista bioclimático, de acordo com Rivas-Martínez et al. (2011) e
nos mapas de zonamento de Monteiro-Henriques (2010), o concelho de Loures
encontra-se no Macrobioclima Mediterrâneo pluviestacional-oceânico, nos andares
termo/mesomediterrâneo de ombrótipo sub-húmido a húmido.
Deste modo, em termos de vegetação climatófila domina o cercal de carvalho-
cerquinho pertencente à associação Arisaro simorrhini-Quercetum broteroi (Vila-
Viçosa, 2012). Em termos de diagnose este cercal corresponde à série
mediterrânea pluviestacional, termo a mesomediterrânea, hiperoceânica a
euoceânica, sub-húmida superior a húmida basófila e calcária, dominada por
Quercus broteroi(Vila-Viçosa, op.cit.). Este bosque climácico contacta
catenalmente com zambujais de Viburno tini-Oleetum sylvestrissobre solos
calcários margosos de carácter vértico, sujeitos a fendilhamento no período
seco. Em posição edafoxerófila, contacta com azinhais de Lonicero implexae-
Quercetum rotundifoliaee com o sobreiral de Asparagoaphylli-Quercetum suberis,
que ocorre sobre arenitos e solos basálticos. Este contacta ainda com
associações edafo-higrófilas dos salgueirais de Clematido campaniflorae-
Salicetum neotrichae(Costa et al.,2010).A vegetação ripícola é constituída
essencialmente por freixiais de Irido foetidissimae-Fraxinetum angustifoliae
(Costa et al., 2012).
Neste território dominam ainda as Permaséries rupícolas da comunidade termo a
mesomediterrânea, sub-húmida a húmida, de gretas largas do Divisório Português
e do arrabidense associadas a rochas calcárias (Sileno longiciliae-
Antirrhinetum linkiani); a comunidade mesomediterrânea e luso-extremadurense,
que atinge o Oeste-estremenho de forma empobrecida (Asplenio ceterach-
Cheilanthetum acrosticae); a comunidade mesomediterrânea, de fendas estreitas
de calcários do Divisório Português e do arrabidense (Narcisso calcicolae-
Asplenietum rutae-murariae) e a comunidade de rochas calcárias planas do
sudoeste da Península ibérica (Sedetum micrantho-sediformis).
Relativamente aos biótopos de salgados destaca-se a presença das comunidades
halofíticas Spartinetum maritimae, Halimiono portulacoidis-Salicornietum
patulaee Holoschoeno-Juncetum acuti.A primeira caracteriza-se por ser uma
comunidade hidrófila, pioneira, mono ou pauciespecífica, dominada por Spartina
maritima, e que se instala em sedimentos marinhos ou fluvio-marinhos, mais ou
menos finos, saturados na maré baixa e sujeitos à influência diária das marés.
A comunidade de Halimiono portulacoidis-Salicornietum patulae caracteriza-se
por ser uma associação mediterrânea, cuja sinecologia está associada a locais
planos arenosos ou limosos saturados dos níveis baixos dos sapais inundados
diariamente, caracterizada pela presença de Salicornia Ramosissima, Suaeda
AlbescensePuccinellia Iberica (Costa et al., 2012).
II. METODOLOGIA
A modelação espacial da distribuição da VNP do concelho de Loures, baseou-se
num conjunto de variáveis predictivas, consideradas representativas das
características biofísicas presentes no território estudado e em dados de
distribuição de comunidades vegetais. Sobre estes conjuntos de dados
geográficos foi aplicado um conjunto de ferramentas de análise exploratória e
de modelação (estatística machine learninge rule-based), que possibilitaram a
criação de modelos predictivos SDM ao nível da comunidade, e por sua vez, a
determinação da VNP.
1. Amostragem
Os levantamentos das presenças das comunidades vegetais foram efectuados
directamente no terreno com recurso a um GPS com correcção diferencial, com
base na carta da vegetação actual disponibilizada pela Câmara Municipal (CM) de
Loures e ainda com recurso a foto-interpretação de ortofotomapas de 2005 (DGT).
Os pontos de presença foram determinados segundo a amostragem baseada na
alocação aleatória proporcional de amostras entre estratos (também conhecida
por proportional random-stratified sampling) (Ruxton e Colegrave, 2006;
Theobald, 2007).
Os pontos de ausência, igualmente determinados por uma amostragem aleatória
estratificada, correspondem às áreas sociais onde existe uma menor
probabilidade (ou mesmo ausência) de se encontrarem comunidades vegetais
inseridas na dinâmica serial das respectivas séries de vegetação. Na alocação
das pseudo-ausências para cada série de vegetação foram ainda consideradas as
áreas onde se observam condições abióticas extremas entre os biogeossistemas
em que se integram as respectivas séries de vegetação, como por exemplo,
biótopos halofíticos versus biótopos calcícolas. Foi adoptada uma prevalência
com valor 1 isto é, mesma quantidade de dados de presença e ausência (quadro
I), por produzir um equilíbrio ideal entre erros de omissão e comissão nos
modelos SDM (Jiménez-Valverde et al., 2009).
2. Selecção das variáveis predictivas
O hipervolume de Hutchinson sugere a existência de múltiplos factores
determinantes na distribuição das espécies e comunidades, constituindo um dos
principais aspectos a considerar na operacionalização do SDM (Biondi et al.,
2004; Franklin, 2009; Monteiro-Henriques, 2010). As variáveis ambientais a
integrar neste tipo de modelos são um dos principais factores passíveis de
condicionar o seu desempenho (Hirzel e Le Lay, 2008; Franklin, 2009).
As variáveis predictivas integradas nos modelos SDM geralmente incluem uma
mistura de variáveis contínuas e categóricas, não sendo expectável que as
relações entre estas e a variável resposta sejam lineares, sendo deste modo,
passível a ocorrência de interacções entre variáveis (Franklin, 2009). A mesma
autora adverte que estes factores deverão ser considerados na formulação
estatística do SDM.
Neste sentido, as variáveis predictivas seleccionadas resultam do modelo
conceptual da VNP e da disponibilidade de cartografia de base (curvas de nível
(1:10 000) (DGT), carta geológica (1:25 000), carta de solos (1:25 000) (DGADR)
e carta de vegetação actual (1:25 000) (CM Loures). estes dados de base foram
integrados em formato matricial (com uma resolução de 5 m) e modelados nos
softwaresArcgis 10 (ESRI) e Sagagis, tendo sido determinadas as variáveis
predictivas consideradas explicativa se necessárias para a modelação da VNP:
altitude, Declive, exposição, Índice topográfico de Humidade, Sky View Factor,
solos, geologia e Distância ao Tejoii.
Convém salientar que nas ciências geobotânicas tem sido amplamente reconhecida
a importância da edafologia e geologia como factores que controlam os padrões
de distribuição das comunidades vegetais (Neto, 2002; Blasi et al., 2004, 2005;
Capelo et al., 2007; Monteiro-Henriques, 2010; Biondi et al., 2011; Costa et
al., 2012; Portela-Pereira, 2013). Contudo, em função da escala de análise
adoptada, que requer uma maior diferenciação territorial, é vista como
fundamental a incorporação adicional de variáveis morfométricasiii para melhor
aferição dos gradientes ecológicos (curvas de resposta) e da adequação óptima
das séries de vegetação (Perring, 1959; Moore et al., 1991; Mackey, 1993;
Franklin, 1995, 2009; Lane et al., 1998; Franklin et al., 2000; Hutchinson e
Gallant, 2000; Wilson e Gallant, 2000; Pausas e Austin, 2001; Jetz e Rahbek,
2002; Shriner et al., 2002; Pausas et al., 2003). Por outro lado, van Manen et
al. (2002) e Fleishman et al. (2002) evidenciam a proximidade a cursos de água
como um factor importante na análise da adequabilidade de habitat. Austin et
al. (2006) acrescentam que a selecção das variáveis predictivas tem bastante
importância na performance do SDM. Neste contexto, apesar de Franklin (2009) e
Biondi et al. (2011) sugerirem a utilização da radiação solar potencial na
modelação da vegetação, por se tratar de uma variável que exprime um gradiente
directo e reflecte o efeito combinado do declive e da exposição no regime
térmico/hídrico, optou-se por testar o efeito separado destas duas variáveis
(de gradiente indirecto) (McCune, 2007; Franklin, 2009).
Por outro lado, a exclusão de variáveis predictivas deverá incidir sobre as
variáveis menos correlacionadas com a variável de resposta, podendo estas
relações serem determinadas mediante uma análise exploratória.
Alternativamente poderá ser considerada a aplicação de métodos de normalização
numa das variáveis auto-correlacionadas (Leathwick et al., 2005; Franklin,
2009). No entanto, apesar de ser reconhecida a utilidade da normalização de
variáveis predictivas, não se trata de um procedimento comum no SDM (Elith e
Leathwick, 2009), apesar de também se admitir que algumas ferramentas de
modelação são beneficiadas com a normalização das variáveis (Rocha, 2012).
Porém, dados os pressupostos dos modelos SDM (Franklin, 2009), não foram
aplicados procedimentos de normalização das variáveis utilizadas no
desenvolvimento do modelo da VNP do concelho de Loures. A análise exploratória
das variáveis predictivas desempenha um papel fundamental na modelação
adoptada (classification-then-modelling), em particular a análise Canónica de
Correspondências (CCA) e a Correlação de Pearson (Ferrier et al., 2002b).
Modelos predictivos baseados em análises de ordenação restritas revelam maior
performance quando aplicados ao nível da comunidade, em que é contemplada a
diversidade de espécies de múltiplas comunidades vegetais, (Ohmann e Spies,
1998; Legendre e Legendre, 1998; Guisan et al., 1999; Dirnbock et al., 2003).
Neste sentido, a análise CCA define a dispersão máxima dos dados de espécies ou
comunidades, em que os eixos da ordenação estão restritos a ser combinações
lineares de variáveis ambientais, sendo possível observar a variação contínua
na composição das comunidades e relacionar esta variação com gradientes
ambientais (Franklin, 2009). A CCA é uma técnica de análise multivariada ou de
ordenação, que incorpora regressão múltipla, na qual os eixos são extraídos não
só tendo em conta a maximização da inércia (variância) explicada, mas também de
modo a que a sua correlação com outro conjunto de variáveis ambientais
predictivas seja também maximizada (Ter Braak, 1988). A vantagem da CCA sobre
os demais métodos é que pode ser utilizada para detectar a inter-relação das
comunidades vegetais com os factores ambientais e ainda estudar os casos
específicos da resposta de espécies às variáveis predictivas (Kent e Ballard,
1988).
As variáveis predictivas excluídas do processo de modelação deverão ser aquelas
que estão fortemente correlacionadas entre si e menos correlacionadas com a
variável de resposta. Deste modo, o grau e força da relação entre as variáveis
predictivas pode ser determinado mediante análises exploratórias, que expressam
as correspondências entre cada variável (independente) e resposta das
comunidades (dependente). Antes ou durante a selecção do modelo, as variáveis
predictivas podem ser testadas para avaliar a existência e grau de correlação
entre as variáveis predictivas (problemas de multicolinearidade) e entre as
variáveis predictivas (factores ambientais) e a variável dependente (séries de
vegetação).
Os métodos baseados na ordenação CCA são sensíveis à colinearidade entre
variáveis e, portanto, a inserção de variáveis redundantes leva à introdução de
ruído no modelo e a interpretações erradas. Deste modo, poderão ser eliminadas
as variáveis que apresentem multicolinearidade (factor de variância-expansão
(VIF) ≥ 10 e R≥0,9). A determinação da significância para o conjunto das
variáveis predictivas desenvolve-se com o teste de simulação de Monte Carlo
(9999 simulações).
Como a colinearidade significa que as variáveis independentes são
correlacionadas, esta pode ser igualmente detectada através da matriz de
correlação entre as variáveis. Assim, de forma a prevenir a ocorrência de
multicolinearidade entre variáveis, foi calculada uma matriz de coeficientes de
correlação de Pearson entre as variáveis independentes (Rocha, 2012). A
ordenação CCA foi efectuada pelo método de análise por gradiente directo no
software CanOCO for Windows 4.5, tendo sido consideradas 774 ocorrências,
correspondentes a 6 séries de vegetação e 8 variáveis predictivas. A natureza e
a força das relações entre cada variável predictiva e as séries de vegetação
foram ainda exploradas com recurso à Correlação de Pearson no softwareSPSS 19
(IBM).
3. Modelação da VNP
Tendo por base o modelo conceptual da VNP, com a base de dados espaciais e com
a possibilidade de integração de um vasto conhecimento empírico, aplicou-se a
abordagem classification-then-modelling(fig._2).
As etapas metodológicas desta estratégia de modelação consistem, numa primeira
fase, na análise exploratória das variáveis predictivas e na ligação ou
estabelecimento de relações entre os dados georreferenciados das comunidades
com as variáveis predictivas, sendo necessário extrair para uma matriz de
dados os valores das localizações das comunidades e das variáveis independentes
(Franklin, 1995). Posteriormente, foram aplicados métodos baseados em
algoritmos estatísticos (Modelos Lineares generalizados - GLM, machine learning
(Máxima entropia - Maxent), redes neuronais artificiais (RNA), Máquinas de
suporte Vetorial (SVM) e rule-based (algoritmo genético para Produção de um
Conjunto de regras - GARP), que descrevem/ integram as relações entre as
ocorrências e as variáveis predictivas (Franklin, 1998, 2009; Guisan et al.,
1999; Rocha, 2012).
Foram utilizadas cinco técnicas de modelação com o objectivo de determinar
quais os modelos que produzem um melhor ajustamento entre a variável dependente
e variáveis independentes, e que podem ser eficazmente utilizados para fazer a
representação espacial contínua das séries de vegetação em apreciação (quadro
II). Vários estudos demonstraram que os modelos testados responderam
satisfatoriamente à análise de padrões e distribuição de espécies e comunidades
vegetais, nomeadamente: o modelo Maxent, aplicado com sucesso por Elith et al.
(2006) e Phillips e Dudík (2008); o modelo GARP por Stockwell e Peters (1999);
o modelo SVM por Guo et al. (2005) e Drake et al. (2006); os modelos GLM por
Guisan e Zimmermann (2000) e Guisan et al. (2002) e as RNA por Hilbert e van
Den Muyzenberg (1999), Hilbert e Ostendorf (2001) e Linderman et al. (2004).
Considerando que, na modelação da ocorrência potencial das séries de vegetação,
não foram utilizadas verdadeiras ausências mas sim pseudo-ausências, foi
adoptada a designação de mapas de localização adequada (habitat suitability
map) (Hirzel et al., 2002; Phillips et al., 2009).
De forma a testar o efeito de selecção das variáveis predictivas no processo de
modelação das séries de vegetação e a garantir modelos parcimoniosos, foram
testados dois cenários de modelação: 1) com o total de variáveis predictivas e
de acordo com a estratégia de modelação aplicada; 2) com as variáveis
significativas resultantes da análise de correlação de Pearson.
4. Validação dos Modelos
A avaliação dos SDM baseia-se na sua performance predictiva, e é considerada a
medida mais importante no processo de validação, durante o qual é frequente
dividir os dados (Guisan e Zimmerman, 2000), com uma parte utilizada para
calibrar o modelo, designados dados de treino, e outra para validar as
predições, designados dados de validação ou teste (Smith, 1994; Miller e
Franklin, 2002). Na modelação predictiva da VNP aplicou-se um rácio de dados de
treino e teste de 70:30 (Franklin, 2002; Phillips et al., 2006; Gutierres et
al., 2011). Em termos de medidas estatísticas de avaliação da capacidade
predictiva, a análise da curva ROC (Receiver Operating Characteristic)
constituiu um importante método na medição e especificação de problemas no
desempenho dos modelos. Permitiu avaliar a sensibilidade da superfície criada
pelo modelo, ou seja, uma representação gráfica dos pares sensibilidade (taxa
dos verdadeiros positivos) e especificidade (taxa dos falsos positivos). A
área abaixo da curva (AUC), delimitada pela união de todos os pares
sensibilidade/especificidade, é encarada como uma medição da performance do
modelo, independentemente do threshold (linha de corte das respostas de
adequabilidade devolvidas pelo modelo) seleccionado para representar o modelo
final da VNP.
Para além da avaliação individual da AUC dos SDM individuais de cada série de
vegetação, procedeu-se à aferição da fracção correctamente classificada da
cartografia predictiva da VNP (decorrente dos dois cenários de modelação e com
posterior aplicação de valores de threshold do tipo Maximum training
sensitivity plus specificity) com a cartografia oficial da VNP da CM Loures
(escala 1:25 000), sendo apresentada sob a forma de tabela de contingência. FOI
igualmente determinada a qualidade do mapa como um todo sem ter em consideração
a qualidade das classes individuais (Precisão global: PG).
III. RESULTADOS
Na ordenação CCA das séries de vegetação e das variáveis predictivas, observou-
se que o eixo 1, com valor próprio 0,327, apresenta um peso relativo superior
ao eixo 2, cujo valor próprio é 0,311 (fig._3). Nesta análise, destaca-se um
gradiente de altitude e Humidade, em que os extremos correspondem a séries de
vegetação com as seguintes condições: baixa altitude, Índice topográfico de
Humidade elevado e menores valores de Sky View Factor (geosérie ripícola), no
quadrante I; e altitude elevada, declives elevados e Índice topográfico de
Humidade baixo (Arisaro simorrhini-Quercetum broteroi), e ainda a elevados
valores de Sky View Factor (Viburno tini-Oleetum sylvestris), no quadrante III.
Relativamente ao solo, geologia e Distância ao tejo, do quadrante II para o IV,
verifica-se a sua enorme influência na ocorrência e composição particular das
séries de vegetação, em que num dos extremos destes gradientes ecológicos
(menor Distância ao tejo, ocorrência de aluviões e solos com elevada
salinidade) pode observar-se a presença do GeopermaSIGmetum Halófitico. No
extremo oposto deste gradiente observa-se um aumento da distância ao tejo
(áreas mais interiores e de maior altitude do concelho de Loures), presença de
arenitos e solos basálticos (Asparago aphylli-Quercetum suberis) e ainda de
afloramentos rochosos com calcários (GeopermaSIGmetum Rupícola).
Deste modo, numa primeira fase, tendo em consideração a inexistência de
Multicolinearidade (VIF < 10), auto-correlação (R < 0,9) e inter-relação com as
séries de vegetação, foram utilizadas as 8 variáveis predictivas no primeiro
cenário de modelação da VNP.
Numa segunda fase, resultante da análise de correlação foram seleccionadas as
variáveis com maior significância e correlação com as séries de vegetação, que
foram incorporadas no segundo cenário de modelação da VNP (quadro_III).
Todos os modelos foram comparados segundo o valor de AUC, quer entre as várias
séries de vegetação, quer entre os modelos desenvolvidos pelas diferentes
técnicas. Observa-se, no quadro_IV, que para todas as séries de vegetação os
modelos Maxent, GLM e SVM apresentam melhor desempenho predictivo face aos
restantes (valores médios de AUC > 0.85). Deste modo, as omissões sobre as
amostras de validação ajustam-se bem à taxa de omissão prevista, o que
significa um bom desempenho dos modelos e que a AUC gerada foi maior do que o
valor aleatório (0,5), o que também é revelador de um bom desempenho dos
modelos.
No presente estudo os modelos do tipo machine learning baseados em dados de
presença (Maxent e SVM) apresentam uma performance predictiva mais elevada
face aos modelos de presença-ausência. São técnicas com elevado ajustamento,
devido à implementação de funções de respostas não lineares e aplicação de
funções mais complexas ao nível de separação das classes das variáveis
predictivas (Phillips e Dudík, 2008).
A elevada performance do modelo Maxent na modelação da VNP baseia-se nas
seguintes características: a) a probabilidade de distribuição é definida
matematicamente e, portanto, a formulação do modelo é relativamente
transparente; b) permite considerar interacções entre as variáveis predictivas;
c) permite considerar transformações polinomiais dos preditores; d) permite
avaliar a influência de cada variável predictiva na distribuição final da VNP;
e e) apresenta um desempenho relativamente bom com amostras pequenas. No
entanto apresenta as seguintes desvantagens: a) não possui procedimentos de
selecção de variáveis predictivas; b) podem ocorrer fragilidades ao lidar com
amostras enviesadas (rocha, 2012).
O modelo SVM apresenta igualmente uma alta performance predictiva como
resultado de conferir suporte às tarefas de regressão e classificação e
conseguir lidar com múltiplas variáveis contínuas e categóricas. Segundo Rocha
(2012), a SVM é “um classificador binário que procura um hiperplano óptimo como
uma função de decisão num espaço de dimensões maiores”. Acresce ainda a
vantagem da possibilidade de definição das designadas variáveis soltas (ou
variáveis de folga) no processo de treino, em que os padrões de treino não
separáveis linearmente no espaço de características podem ser tratados. Por
último, a SVM recorre a um algoritmo de treino iterativo, que é utilizado para
minimizar uma função de erro.
Apesar de ser reconhecida melhor eficiência das técnicas de modelação baseadas
em dados de presença-ausência (Brotons et al., 2004; Franklin, 2009; Palialexis
et al., 2011), no presente estudo apenas o modelo GLM corrobora esta tendência.
O GLM apresenta as seguintes vantagens: a) considera interacções entre
variáveis e relações não lineares entre as variáveis predictivas e de resposta;
b) permite analisar a influência que cada preditor tem no padrão de
distribuição da VNP; c) o algoritmo apresenta numerosas derivações para a
resolução de problemas tais como a auto-correlação espacial, preditores
correlacionados e amostragem de enviesamento amostral e d) as medidas de
incerteza na estimativa dos coeficientes de regressão e análise residual
permitem investigar as fontes e a distribuição espacial dos erros do modelo.
No entanto, apresenta algumas desvantagens: a) os procedimentos de selecção de
variáveis (Critério de informação de akaike - AIC) não seleccionam com a
frequência desejável o modelo com a exactidão potencial mais alta. b) permite
determinar a importância relativa de cada variável na capacidade predictiva do
modelo da VPN; e c) a distribuição predita é extremamente sensível à relação
entre a presença e a ausência de ocorrências nos dados (Rocha, 2012).
Deste modo, a boa performance predictiva do GLM na modelação da VNP advém do
facto de se tratar de um modelo de regressão linear com elevada capacidade
predictiva, em virtude da sua flexibilidade para todos os tipos de dados e das
funções de ligação que utiliza para relacionar as variáveis independentes
(tanto contínuas como categóricas). E ainda pelo facto de se terem utilizado
equilibradamente as quantidades de ausências e de presença para simular a
prevalência estimada das séries de vegetação na área de estudo.
Relativamente às RNA, apesar de ser descrita como uma técnica de modelação
adequada para modelos ecológicos complexos não lineares, ficou aquém dos
resultados esperados. As RNA apresentam a vantagem de não requererem uma
compreensão a priori das relações entre as variáveis predictivas. Contudo, elas
são sensíveis à composição do conjunto de dados e à formação inicial dos
parâmetros da rede (Özesmi et al., 2006). Existem numerosos tipos de algoritmos
de aprendizagem específicos para determinados modelos de redes neuronais, que
diferem entre si principalmente pelo modo como os pesos atribuídos à rede são
modificados. Deste modo, a pior performance predictiva na modelação da VNP
estará relacionada com os padrões de treino colocados na entrada da rede
neuronal, que conduziu a um problema de aprendizagem da rede. Trata-se portanto
de um modelo que requer a reiniciação do processo, compreensão das dificuldades
(caixa-negra) e correcção das falhas.
Por último, o modelo GARP obteve igualmente uma performance inferior ao
potencial expectável para a modelação da VNP. Esta técnica é descrita como um
algoritmo de aprendizagem máquina para desenvolver um conjunto de regras. O
GARP procura iterativamente correlações não-aleatórias entre as presenças e as
ausências (pseudo-ausências geradas pelo algoritmo) e os factores predictivos.
No entanto apresenta diversas desvantagens: a) gera pseudo-ausências e não
permite que sejam substituídas; b) os mapas predictivos não são
determinísticos. As saídas vão ser diferentes em diferentes execuções do GARP,
mesmo que sejam utilizados os mesmos dados de ocorrência; c) é difícil de
interpretar (caixa-negra); d) há tendência para erros de comissão; e e) não
possui procedimentos de selecção de variáveis.
Foi ainda analisada a importância das variáveis predictivas no modelo com
melhor capacidade predictiva (AUC=0,96) (quadro_V). Foi possível analisar a
contribuição individual de cada variável predictiva para o modelo Maxent, tal
como o desempenho do modelo quando cada uma das variáveis não é incluída na
análise (stepwise with backward elimination).
Verifica-se, no quadro_V, que em todas as séries de vegetação as variáveis
solos e geologia apresentam um elevado contributo para a sua distribuição no
território estudado. Convém ainda destacar a importância das variáveis
altitude, Sky View Factor, Índice topográfico de Humidade e Distância ao tejo
na diferenciação da geossérie ripícola, cercal de Arisaro simorrhini-Quercetum
broteroi e comunidades halófiticas permanentes.
Os modelos desenvolvidos por cada uma das cinco técnicas de modelação foram
regionalizados, utilizando a cartografia temática de base de cada variável
predictiva, de forma a espacializar a distribuição potencial das séries de
vegetação. Através de processos de análise espacial em ambiente SIG, os mapas
de localização adequada de cada série de vegetação foram reclassificados com
base nos threshold. Os mapas binários produzidos a partir do modelo Maxent com
inclusão de todas as variáveis predictivas (adequabilidade de habitat versus
não adequabilidade de habitat) foram integrados por combinação lógica num único
output cartográfico, resultando deste modo, o mapa da VNP do concelho de Loures
(fig._4). Finalmente foi comparada a performance da cartografia predictiva
produzida com cartografia oficial da VNP da CM Loures. O mapa da VNP resultante
do primeiro cenário de modelação apresenta uma PG de 88%, enquanto o modelo da
VNP resultante do segundo cenário de modelação apresenta uma PG de 78%.
IV. DISCUSSÃO
Os modelos da VNP produzidos possibilitaram uma melhor compreensão dos
principais factores biofísicos associados à distribuição das séries de
vegetação no território estudado. O modelo Maxent, além de apresentar uma
elevada performance predictiva, possibilita uma análise integrada da
adequabilidade ao longo de gradientes ambientais. Observam-se alguns aspectos
interessantes relacionados com as curvas de resposta, nomeadamente a forma
como cada variável per se afecta o modelo. Contudo, a interpretação do
contributo das variáveis neste modelo pode apresentar algumas limitações, em
virtude do modo automático como são relacionadas as diferentes classes
(linear, quadrática, polinomial). a influência de colinearidade e interacção
entre as variáveis predictivas também não é explicitada de forma clara, podendo
originar dificuldades na interpretação. Deste modo, a aplicação de análise
exploratória para a remoção de multicolinearidade permite uma melhor
interpretação do contributo de cada variável predictiva. No entanto, os
efeitos de interacção podem permanecer e serem impossíveis de diferenciar.
Os resultados dos modelos predictivos da VNP, a partir das curvas de resposta
do modelo Maxent com a variante TV, estão de acordo com o conhecimento actual
da ecologia das séries de vegetação estudadas (Costa et al., 2012).
Para a geossérie ripícola a geologia contribuiu em cerca de 62%, destacando-se
a elevada importância da classe Aluviões, Aterros. A análise relativa às
variáveis explicativas confirma que a adequação óptima desta série reflecte-se
nas seguintes condições ecológicas: altitudes compreendidas entre 0 e 25 m
(fig._5), declive abaixo dos 10%, exposições norte e Oeste, solos mal drenados,
vales encaixados, presença de aluviossolos e com distribuição independente da
continentalidade.
O GeopermaSIGmetumrupícola obteve uma melhor resposta no tipo de solo
Afloramentos rochosos com calcários ou dolomias, ocorre maioritariamente sob a
Formação de Bica: calcários com rudistas (inclui o nível com Neolobites
vibrayeanus) (fig._6, classe geológica 17). Situa-se entre 400 e 450 m, em
declives compreendidos entre 50 e 60%, na exposição norte, em vales encaixados,
na presença de solos bem drenados, em posições mais interiores do território e
com uma maior xericidade (de maior continentalidade, a 12 500 m do tejo), o que
estabelece um elevada concordância com as características ecológicas desta
permasérie.
Todavia, verificam-se efeitos marginais nas variáveis altitude, Declive, Sky
View Factor e Distância ao tejo, pois quando uma destas variáveis é permutada e
as outras todas assumem o valor médio, apresentam-se constantes ao longo da
Curva de resposta. Este facto poderá ser explicado pela elevada correlação
entre as variáveis, que apresentam uma menor contribuição para o modelo.
Conforme será discutido, uma selecção iterativa das variáveis ou normalização
das variáveis contínuas poderia constituir uma estratégia alteRNAtiva para a
selecção do conjunto mais apropriado de variáveis.
Em relação à série de vegetação do sobreiral Asparago aphylli-Quercetum
suberisverifica-se mais uma vez que o tipo de solo explica 81% do modelo,
nomeadamente o solo que corresponde à classe Solos Litólicos Não Húmicos Pouco
Insaturados, Normais de arenitos finos micáceos (de textura arenosa a franco-
arenosa), fase normal (com uma adequabilidade de 91%). Segundo Cardoso (1965)
trata-se de solos em que a rocha-mãe, sujeita a intensa meteorização física e
a uma reduzida alteração química e que apresentam um baixo teor orgânico e
espessura efectiva. Assim, a sua textura tende a ser predominantemente
arenosa, solta e friável no horizonte a, chegando a franco-arenosa no horizonte
B. estas características evidenciam a diagnose desta série, cuja sinecologia se
encontra em termos pedológicos associada a arenitos e solos basálticos (Costa
et al., 2012). O modelo prediz também que a presença da Formação de Porto da
Calada: arenitos, pelitos, calcários e dolomitos, declives abaixo dos 10%,
distribuição entre 200 e 225 m de altitude, na exposição norte (fig._7), em
vales abertos e igualmente em situações de maior continentalidade (a uma
distância de 15 000 m do tejo) são condições ecológicas favoráveis para a
ocorrência desta série de vegetação.
No que concerne à série de vegetação do cercal de Arisaro simorrhini-Quercetum
broteroi verifica-se mais uma vez que os solos explicam 67% do modelo, sendo
várias as classes que melhor responderam com uma adequabilidade superior a 70%
de presença desta série. A classe de solos que apresenta uma maior adequação
(cerca de 87%) é a referente a Solos Incipientes Coluviossolos ou Solos de
Baixas Calcários (Para-Solos Calcários) de textura ligeira, fase normal. Os
restantes solos correspondem de uma forma geral a solos mediterrâneos de origem
calcária, sendo a resposta consonante com a diagnose da série (Vila-Viçosa,
2012). O modelo também identificou áreas de óptima adequabilidade situadas na
Formação de Benfica: intercalações calcárias (Calcários de Alfornelos), nas
altitude de 45 m e também entre 350 e 450 m, em zonas com declives entre 50 e
60%, em vales encaixados (fig._8), nas exposições sul e sudoeste e na presença
de solos bem drenados.
A série de vegetação do zambujal Viburno tini-Oleetum sylvestristambém
apresentou melhor resposta com a variável tipo de solo (56%) seguida da
geologia (30%). Os tipos de solos com maiores probabilidades de
correspondência foram os Barros Pardos Calcários Pouco Descarbonatados, de
arenitos argilosos, argilas ou argilitos, calcários e Solos Argiluviados Pouco
Insaturados Mediterrâneos Pardos de Materiais Não Calcários Para-Barros de
arenitos finos, argilas ou argilitos, fase normal. Estes solos caracterizam-se
por apresentarem nos horizontes a e B uma textura argilosa a franco-argilo-
arenosa extremamente aderente, plástica, sendo solos firmes e rijos a
extremamente rijos, sujeitos a fendilhamento quando secam, com valores de pH
elevados (6.5 a 8.5), o que está de acordo com a diagnose desta série (Costa et
al., 2012).A série apresenta igualmente uma elevada adequabilidade sob as
formações geológicas do Complexo Vulcânico de Lisboa e Formação de Benfica:
intercalações calcárias (Calcários de Alfornelos), a 300 m de altitude, em
declives entre os 5 e 10%, em vales abertos, nas exposições sudoeste e Oeste,
na presença de solos bem drenados e em zonas de maior continentalidade
(pontualmente aos 1 000 m, mas atingindo os valores mais elevados a uma
distância compreendida entre os 10 000 e os 15 000 m do tejo) (fig._9).
Finalmente, no que concerne ao GeopermaSIGmetum halófiticomais uma vez a
variável solos apresenta as melhores respostas (47%), sendo de destacar as
elevadas probabilidades de correspondência com as classes Solos Halomórficos
Salinos de Salinidade Elevada de Aluviões de textura pesada, calcários, fase
inundável, Solos Halomórficos Salinos de Salinidade Elevada de Aluviões de
textura pesada, calcários, fase normal e Solos Halomórficos Salinos de
Salinidade Moderada de Aluviões de textura ligeira, calcários. As restantes
curvas de resposta desta permasérie revelam padrões extremamente
interessantes, expressos pela forma como cada variável afecta per se o modelo.
Deste modo, é possível observar que, com o aumento de altitude (fig._10), a
adequabilidade da permasérie tende a diminuir, a par da Distância ao tejo
(fig._11), o que se reflecte numa maior proximidade ao mar, menor
continentalidade, maior teor de humidade e influência da salsugem. Deste modo,
a elevada adequabilidade desta permasérie é determinada pela presença de
Aluviões, Aterros, solos com má drenagem, por baixas altitudes (entre 0 e 3 m),
declives abaixo dos 4%, proximidade ao tejo (aprox. 200 a 300 m), áreas planas
(sem exposição definida) e de relevo suave (Sky View Factor próximo de 1).
V. CONCLUSÃO
A estratégia de modelação predictiva ao nível da comunidade (classification-
then-modelling) permitiu a quantificação e avaliação da distribuição espacial
da VNP no concelho de Loures. A classificação canónica na modelação da VNP
possibilitou a integração da classificação das séries de vegetação e modelação
espacial num único nível de análise. De referir que, nos SDM ao nível da
espécie a única preocupação centra-se na selecção da técnica de modelação a
implementar (e.g. Maxent, GLM). Ao invés, na modelação ao nível da comunidade
esta selecção apresenta-se como uma componente da estratégia analítica global,
permitindo um melhor conhecimento da posição exacta das séries de vegetação ao
longo de gradientes ambientais, sendo expressa na sua menor ou maior
adequabilidade territorial.
No entanto, ficou evidente a necessidade de uma selecção de preditores
adequados, sobretudo variáveis que tenham em consideração os factores
fisiológicos directos ou efeitos históricos (uso e ocupação do solo) que
actuam a escalas espaciais mais detalhadas, cuja ausência poderá conduzir a uma
sobrestimação da amplitude espacial da distribuição potencial das séries de
vegetação. No entanto, os resultados obtidos com os modelos predictivos e um
bom conhecimento ecológico das séries de vegetação permitem a utilização eficaz
de modelos de adequabilidade para descrever e estudar a distribuição das séries
e as suas respostas a determinados factores geográficos e ambientais.
Actualmente têm-se vindo a desenvolver esforços no sentido de encontrar a
melhor estratégia em diferentes contextos. Tal facto depende dos objectivos
analíticos e da natureza do conjunto de dados disponíveis. Na estratégia
implementada foi considerado que o conceito de nicho ecológico de Hutchinson
deve ser o mais explícito possível, ao nível da selecção e interacção entre as
variáveis ambientais predictivas, funções de resposta, tipo de modelo, tipo de
dados bióticos e interpretação das predições resultantes. Deste modo, o
conceito de nicho realizado aponta similaridades com os pressupostos
subjacentes ao conceito de VNP. Assim sendo, para além da elevada performance
predictiva do modelo Maxent, os resultados obtidos por este modelo permitiram
aferir o modo como os gradientes ecológicos, expressos ao longo das curvas de
resposta, determinam o nicho realizado para as diversas séries de vegetação.
Conforme ficou demonstrado neste estudo, mesmo considerando a existência de um
vasto conhecimento empírico, centrado nos factores biofísicos determinantes
para a modelação predictiva da VNP, e a selecção prévia das variáveis com maior
significância e correlação com as séries de vegetação, dever-se-á optar por uma
estratégia de modelação que permita a inclusão do total das variáveis
predictivas. No entanto, previamente devem ser analisadas as assumpções dos
modelos, ao nível da eliminação de situações de multicolinearidade, avaliação
da normalidade e linearidade das variáveis predictivas e as possíveis
melhorias no desempenho predictivo dos modelos se for tida em consideração a
estandardização das variáveis independentes.
Por outro lado, os resultados obtidos demonstram que, mesmo que as variáveis
predictivas apresentem um baixo nível de significância, contribuem para uma
melhoria da performance predictiva. Deste modo, na espacialização da VNP ficou
demonstrado que o cenário com todas as variáveis permite obter melhores
resultados.
Dever-se-á ainda delinear a amostragem que assegure maior representatividade da
variabilidade espacial das espécies/comunidades a modelar, incorpore número de
variáveis proximais e integre dados de base das variáveis categóricas (e.g.
edafologia) com grande desagregação territorial.
Apesar do carácter hipotético da cartografia da VNP, a distribuição potencial
das séries de vegetação serve de base para uma comparação quantitativa com a
distribuição da vegetação actual, e revela-se fundamental para a avaliação dos
efeitos de perturbação, sucessão vegetal e diversidade.
Conclui-se que a expressão cartográfica da VNP no território assume um papel
importante no Ordenamento e Planeamento do território, nomeadamente, ao nível
das políticas de protecção dos solos e da Biodiversidade e nos Planos de
Ordenamento do território em vigor. A sua aplicação na reconstituição da
vegetação natural após acção antrópica apresenta igualmente enorme importância.