Capítulo 1 Introdução
1.1 Histórico deste livro
Este livro foi estruturado a partir da apostila elaborada pelos pesquisadores Diogo B. Provete, Fernando R. da Silva e Thiago Gonçalves-Souza para ministrar o curso Estatística aplicada à ecologia usando o R no PPG em Biologia Animal da UNESP de São José Rio Preto/SP, em abril de 2011. Os três pesquisadores eram então alunos do PPG em Biologia Animal quando elaboraram o material disponibilizado na apostila Estatística aplicada à ecologia usando o R. A proposta de transformar a apostila em livro sempre foi um tópico recorrente desde 2011, e concretizado agora, um pouco mais de 10 anos depois.
Neste período, Diogo, Fernando e Thiago foram contratados pela Universidade Federal de Mato Grosso do Sul, Universidade Federal de São Carlos campus Sorocaba, e Universidade Federal Rural de Pernambuco, respectivamente. Nestes anos eles ofertaram diferentes versões do curso Estatística aplicada à ecologia usando o R para alunos de graduação e pós-graduação em diferentes instituições do Brasil. A possibilidade da oferta destes novos cursos fortaleceu a ideia de transformar a apostila em um livro com base nas experiências dos pesquisadores em sala de aula.
Considerando que novas abordagens ecológicas vêm sendo descritas e criadas a uma taxa elevada nos últimos anos, era de se esperar que as informações disponíveis na apostila estivessem defasadas após uma década. Por este motivo, Diogo, Fernando e Thiago convidaram outros dois pesquisadores, Gustavo B. Paterno da Georg-August-University of Göttingen e Maurício H. Vancine do PPG em Ecologia, Evolução e Biodiversidade da UNESP de Rio Claro/SP, que são referências no uso de estatística em ecologia usando o R. Com o time completo, passaram mais de um ano realizando reuniões, compartilhando scripts e pagando cerveja para os coautores por capítulos atrasados até chegarem nesta primeira versão do livro.
1.2 Objetivo deste livro
Nossa proposta com este livro é produzir um conteúdo que possa ser utilizado tanto por quem quer se aprofundar em análises comumente utilizadas em ecologia, quanto por quem não tem nenhuma ou poucas habilidades quantitativas. Para isso, traçamos o melhor caminho, pelo menos do nosso ponto de vista, entre questões ecológicas e os métodos estatísticos mais robustos para testá-las. Guiar seus passos nesse caminho (nem sempre linear) necessita que você utilize um requisito básico: o de se esforçar para caminhar. O nosso esforço, em contrapartida, será o de indicar as melhores direções para que você adquira certa independência em análises ecológicas. Um dos nossos objetivos é mostrar que o conhecimento de teorias ecológicas e a formulação de questões apropriadas são o primeiro passo na caminhada rumo à compreensão da lógica estatística. Não deixe que a estatística se torne a “pedra no seu caminho”. Em nossa opinião, programas com ambiente de programação favorecem o entendimento da lógica estatística, uma vez que cada passo (lembre-se de que você está caminhando em uma estrada desconhecida e cheia de pedras) precisa ser coordenado, ou seja, as linhas de código (detalhes abaixo) precisam ser compreendidas para que você teste suas hipóteses. No entanto, tome cuidado ao copiar deliberadamente scripts sem entender cada um dos passos da análise ou gráfico realizado.
A primeira parte deste livro pretende utilizar uma estratégia que facilita a escolha do teste estatístico apropriado, por meio da seleção de questões/hipóteses claras e da ligação dessas hipóteses com a teoria e o método (veja Figura 2.1 no Capítulo 2). Enfatizamos que é fundamental ter em mente aonde se quer chegar, para poder escolher o que deve ser feito. Posteriormente à escolha de suas questões, é necessário transferir o contexto ecológico para um contexto meramente estatístico (hipótese nula/alternativa). A partir da definição de uma hipótese nula, partiremos para a aplicação de cada teste estatístico (de modelos lineares generalizados a análises multivariadas) utilizando a linguagem R.
Antes de detalhar cada análise estatística, apresentaremos o funcionamento básico da utilização da linguagem R e os tipos de distribuição estatística que são essenciais para a compreensão dos testes estatísticos. Para isso, organizamos um esquema que chamamos de “estrutura lógica” que facilita a compreensão dos passos necessários para testar suas hipóteses (veja Figura 2.1 no Capítulo 2) (Gonçalves-Souza, Provete, et al. 2019).
1.3 O que você não encontrará neste livro
Aprofundamento teórico, detalhes matemáticos e explicação dos algoritmos são informações que infelizmente não serão abordadas neste livro. O foco aqui é a explicação de como cada teste funciona (teoria e procedimentos matemáticos básicos) e sua aplicação em testes ecológicos usando scripts na linguagem R. Recomendamos aos (às) leitores (as) que consultem os livros indicados no final deste capítulo caso desejem maior aprofundamento teórico e prático.
1.4 Por que usar o R?
Os criadores do R o chamam de uma linguagem e ambiente de programação estatística e gráfica (Venables and Ripley 2002). A linguagem R também é chamada de programação “orientada ao objeto” (object oriented programming), o que significa que utilizar o R envolve basicamente a criação e manipulação de objetos em um terminal, em que o usuário tem de dizer exatamente o que deseja que o programa execute, ao invés de simplesmente clicar em botões. E vem daí uma das grandes vantagens em se usar o R: o usuário tem total controle sobre o que está acontecendo e também tem de compreender o que deseja antes de executar uma análise. Além disso, o R permite integração com outros programas escritos em Fortran, C++, Python e Java, permitindo que os usuários possam aplicar novas metodologias sem ter que aprender novas linguagens.
Na página pessoal do Prof. Nicolas J. Gotelli existem vários conselhos para um estudante iniciante de ecologia. Dentre esses conselhos, o Prof. Gotelli menciona que o domínio de uma linguagem de programação é uma das habilidades mais importantes, porque dá liberdade ao ecólogo para executar tarefas que vão além daquelas disponíveis em pacotes estatísticos comerciais. Além disso, a maioria das novas análises propostas nos mais reconhecidos periódicos em ecologia normalmente são implementadas na linguagem R, e os autores geralmente incluem o código fonte no material suplementar dos artigos, tornando a análise acessível e reprodutível. A partir do momento que essas análises ficam disponíveis (seja por código fornecido pelo autor ou por implementação em pacotes pré-existentes), é mais simples entendermos a lógica de análises complexas, especialmente as multivariadas, utilizando nossos próprios dados, realizando-as passo a passo. Sem a utilização do R, normalmente temos que contatar os autores que nem sempre são tão acessíveis.
Especificamente em Ecologia, o uso da linguagem R para análise de dados cresceu enormemente nas duas últimas décadas. Em um artigo de revisão, Lai et al. (2019) analisaram mais de 60.000 artigos revisados por pares publicados em 30 periódicos de Ecologia durante um período de 10 anos. O número de estudos usando R aumentou linearmente de 11,4% em 2008 para 58,0% em 2017, e os 10 principais pacotes utilizados e ordenados por maior frequência de uso foram: lme4
, vegan
, nlme
, ape
, MuMIn
, MASS
, mgcv
, ade4
, multcomp
e car
. Os autores afirmam que a crescente popularidade do R promoveu a ciência aberta na pesquisa ecológica, melhorando a reprodutibilidade das análises e o fluxo de trabalho, principalmente quando scripts e códigos foram incluídos e compartilhados nos artigos. Eles finalizam dizendo que a partir dos resultados encontrados, a linguagem R é um componente significativo das análises no campo da Ecologia.
Uma última vantagem é que por ser um software livre, a citação do R em artigos é permitida e até aconselhável. Para saber como citar o R, digite citation()
na linha de comando. Para citar um pacote específico, digite citation()
com o nome do pacote entre aspas dentro dos parênteses. Mais detalhes sobre citações podem ser vistos no Capítulo 4. Neste ponto, esperamos ter convencido você leitor(a), de que aprender a utilizar o R tem inúmeras vantagens. Entretanto, provavelmente vai ser difícil no começo, mas continue e perceberá que o investimento vai valer à pena no futuro.
1.5 Indo além da linguagem de programação para a Ecologia
Um ponto em comum em que todos os autores deste livro concordaram em conversas durante sua estruturação, foi a dificuldade que todos tivemos quando estávamos aprendendo a linguagem:
- Como transcrever os objetivos (manipulação de dados, análises e gráficos) em linguagem R
- Como interpretar os resultados das análises estatísticas do R para os objetivos ecológicos
Num primeiro momento, quando estamos aprendendo a linguagem R é muito desafiador pensar em como estruturar nossos códigos para que eles façam o que precisamos: importar dados, selecionar linhas ou colunas, qual pacote ou função usar para uma certa análise ou como fazer um gráfico que nas nossas anotações são simples, mas no código parece impossível. Bem, não há um caminho fácil nesse sentido e ele depende muito da experiência e familiaridade adquirida com o tempo de uso da linguagem, assim como outra língua qualquer, como inglês ou espanhol. Entretanto, uma dica pode ajudar: estruture seus códigos antes de partir para o R. Por exemplo, escreva um papel os pontos que deseja executar em seus códigos, como se estivesse explicando para alguém os passos que precisa para realizar as tarefas. Depois disso, transcreva para o script (arquivo onde os códigos são escritos, mas não se preocupe, iremos explicar esse conceito no Capítulo 4) esses pontos em formato de texto. Por fim, traduza isso em linguagem R. Pode parecer maçante e cansativo no começo, mas isso o ajudará a ter maior domínio da linguagem, sendo que esse passo se tornará desnecessário quando se adquire bastante experiência.
Uma vez que esta barreira inicial foi transposta e você conseguiu obter os primeiros resultados de suas análises com valores de estatísticas, parâmetros estimados, valores de p e R², gráficos, e etc., como interpretamos à luz da teoria ecológica? Esse ponto é talvez um dos mais complicados. Com o tempo, ter um valor final de uma estatística ou gráfico à partir da linguagem R é relativamente simples, mas o que esse valor ou gráfico significam para nossa hipótese ecológica é o ponto mais complexo. Essa dificuldade por ser por inexperiência teórica (ainda não lemos muito sobre um aspecto ecológico) ou inexperiência científica (ainda temos dificuldade para expandir nossos argumentos de forma indutiva). Destacamos esse ponto porque ele é fundamental no processo científico e talvez seja o principal aspecto que diferencia os cientistas de outros profissionais: sua capacidade de entendimento dos padrões à partir dos processos e mecanismos atrelados. Nesse ponto, quase sempre recorremos aos nossos orientadores ou colegas mais experientes para nos ajudar, mas é natural e faz parte do processo de aprendizado de uso da linguagem R junto à Ecologia como Ciência. Entretanto, contrapomos a importância dessa extrapolação para não nos tornarmos apenas especialistas em linguagem R sem a fundamental capacidade de entendimento do sistema ecológico que estamos estudando.
1.6 Como usar este livro
Os conteúdos apresentados em cada capítulo são independentes entre si. Portanto, você pode utilizar este livro de duas formas. A primeira é seguir uma ordem sequencial (capítulos 1, 2, 3, …) que recomendamos, principalmente, para as pessoas que não possuem familiaridade com a linguagem R. A segunda forma, é selecionar o capítulo que contém a análise de seu interesse e mudar de um capítulo para outro sem seguir a sequência apresentada no livro.
Com exceção dos capítulos 2, 3, 4, 5, 6 e 15, os outros capítulos foram elaborados seguindo a mesma estrutura, contendo uma descrição da análise estatística (aspectos teóricos) e exemplos relacionados com questões ecológicas que podem ser respondidas por esta análise e exercícios. Todos os exemplos são compostos por: i) uma descrição dos dados utilizados, ii) pergunta e predição do trabalho, iii) descrição das variáveis resposta(s) e preditora(s), e iv) descrição e explicação das linhas de código do R necessárias para realização das análises. A maioria dos exemplos utilizados são baseados em dados reais que já foram publicados em artigos científicos ou são dados coletados por um dos autores deste livro. Nós recomendamos que primeiro você utilize estes exemplos para se familiarizar com as análises e a formatação das linhas e colunas das planilhas. Em seguida, faça os exercícios propostos no final de cada capítulo, e por fim, utilize seus próprios dados para realizar as análises. Esta é a melhor maneira de se familiarizar com as linhas de código do R.
📝 Importante
Muitas das métricas ou índices apresentados neste livro não foram traduzidas para o português, porque seus acrônimos são clássicos e bem estabelecidos na literatura ecológica. Nestes casos, consideramos que a tradução poderia confundir as pessoas que estão começando a se familiarizar com a literatura específica. Além disso, optamos por manter a versão padrão em alguns gráficos utilizados nos Capítulos 7 ao 15, principalmente aqueles gráficos que são “output” de análises como, por exemplo, visualização de normalidade de resíduos, homogeneidade de variâncias, entre outros. Em geral, esses gráficos são usados no processo de decisão de algum passo da análise e não possuem qualidade de publicação. Como o usuário vai obter o mesmo gráfico quando replicar as análises propostas aqui ou suas próprias análises, julgamos ser mais didático manter a versão original, em inglês.
Realçamos que não estamos abordando todas as possibilidades disponíveis, e existem muitos outros pacotes e funções no R que realizam as mesmas análises. Contudo, esperamos que o conteúdo apresentado permita que os(as) leitores(as) adquiram independência e segurança para que possam caminhar sozinhos(as) na exploração de novos pacotes e funções para responderem suas perguntas biológicas e ecológicas.
1.7 Como ensinar e aprender com esse livro
Uma forma bastante interessante de aprender ou aprofundar seu conhecimento sobre um tema é a partir de grupos de estudo. Aproveitando as dinâmicas de estudos que os próprios autores fizeram em seus laboratórios (seja como discente ou professor), sugerimos abaixo alguns formatos que podem ser usados por um grupo de discentes (sem a presença de um orientador) ou pelo laboratório. É importante ressaltar que esses formatos não são os únicos que podem ser testados. O leitor pode juntar ideias de diferentes propostas ou mesmo usar parte das propostas e inserir suas próprias ideias, tendo como base as características do grupo que irá se reunir.
1.7.1 Em laboratórios ou grupos de pesquisa
Líder aleatório
Cada capítulo é sorteado para um integrante do grupo que ficará responsável por estudar, apresentar e enviar outros materiais que julgar necessário. Neste formato, existem duas possibilidades interessantes. A primeira é de um grupo de estudantes que é iniciante em determinado tema (e.g., análise multivariada) e, desse modo, todos integrantes serão estimulados a participarem do processo de ensino e de aprendizagem. O segundo ponto interessante é para grupos heterogêneos onde pessoas diferentes possuem domínio de diferentes ferramentas. Neste caso, é importante que mesmo que determinado integrante seja especialista na análise X, ele poderá aleatoriamente ter que aprender e ensinar a análise Y. Como resultado, espera-se que os grupos de estudo neste formato tenham ampla discussão, uma vez que integrantes com baixo, médio ou alto conhecimento em determinada análise serão tanto professores como aprendizes.
Líder especialista I (discentes como líderes)
Cada capítulo é liderado pelo “maior especialista” naquele determinado assunto, que ficará responsável por organizar toda dinâmica do grupo. O ideal é que especialistas distintos liderem a discussão de diferentes capítulos, para que todos os membros do grupo sejam líderes em no mínimo um capítulo.
Líder especialista II (orientador ou pós-doc)
O orientador (ou pós-doc ou ambos) selecionam os capítulos sobre o assunto de interesse (ou todos os capítulos do livro) e se reúne regularmente para discussão com discentes. Além da leitura dos capítulos, o líder pode enviar atividades extras ou desafios para estimular que os discentes leiam o conteúdo e também executem comandos no R. Por exemplo, em cada capítulo, o desafio pode ser criar hipóteses sobre um tema de estudo, gerar dados fictícios (ou usar dados reais disponíveis) e analisar os dados com determinado teste estatístico no R.
Líder especialista I ou II integrando com teoria (específico para capítulos 8 a 15)
Esta proposta expande o Líder especialista I uma vez que não estará focada somente na análise estatística apresentada no livro. Além de inserir este componente analítico, o líder irá apresentar o arcabouço teórico ecológico que é geralmente usado em estudos que utilizaram determinada análise. Por exemplo, o capítulo que apresenta regressão linear seria combinado com a teoria de biogeografia de ilhas para entender a relação espécies-área. Desse modo, não seria apresentado somente as especificidades da regressão linear, mas também a teoria de biogeografia de ilhas.
1.7.2 Em disciplinas da graduação ou pós-graduação
Atividade em grupo em sala invertida
O professor pode sortear diferentes grupos que ficarão responsáveis por cada capítulo do livro (a depender do conteúdo da disciplina). Cada componente do grupo pode ficar responsável por diferentes partes do capítulo. Por exemplo, se a disciplina for de gráficos, um discente pode discutir a estrutura das funções do pacote ggplot2
, outro discente pode apresentar a conexão entre tipos de variáveis e gráficos, enquanto um terceiro discente se responsabiliza por executar os comandos dos gráficos no R. As atividades devem ser realizadas e apresentadas antes da aula teórica/prática sobre aquela temática, e o docente ficará responsável por mediar as apresentações e discussões.
Sala convencional
O professor pode usar o livro como material didático seguindo o conteúdo de acordo com a disciplina em questão, seja ela da linguagem R, de análises univariadas, multivariadas ou espaciais. Além disso, o professor pode fornecer dados para os discentes (ou estimular que discentes usem os próprios dados) e replicar gráficos e análises usando os scripts fornecidos no livro.
1.8 Livros que recomendamos para aprofundamento teórico
Hands-On Programming with R (Grolemund 2014): Esse livro é para quem quer se aprofundar e aprender a programar em R, com exemplos práticos. Nas palavras do autor, ele disse que escreveu o livro para não programadores, com o intuito de fornecer uma introdução amigável à linguagem R. Nele, é apresentado como carregar dados, montar e desmontar objetos de dados, navegar no sistema de ambiente do R, escrever funções e usar as ferramentas de programação do R para a solução de problemas práticos de ciência de dados. O livro está disponível nesse link.
R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (Wickham & Grolemund 2017): Também conhecido como R4DS, esse livro é uma das primeiras referências sobre tidyverse e de Ciência de Dados no R. O livro aborda as principais etapas de importação, conversão, exploração e modelagem de dados e comunicação dos resultados. Ele apresenta uma compreensão do ciclo da ciência de dados, juntamente com as ferramentas básicas necessárias para gerenciar os detalhes sobre cada etapa do ciclo. Cada seção do livro é combinada com exercícios para ajudar na fixação do conteúdo. Os principais tópicos são: i) transformar conjuntos de dados em um formato conveniente para análise, ii) programação com ferramentas poderosas do R para resolver problemas de dados com maior clareza e facilidade, iii) examinar os dados, gerar hipóteses e testá-las rapidamente, iv) gerar modelos que forneçam um resumo dos dados e que capture “sinais” no conjunto de dados, e v) aprendar R Markdown para integrar texto, código e resultados. O livro está disponível nesse link.
A primer of ecological statistics, 2a edição (Gotelli & Ellison 2012): Este livro traz um apanhado geral sobre desenhos amostrais voltados para experimentação e uma introdução à estatística multivariada. Existe uma tradução para o português da primeira edição, chamada “Princípios de Estatística em Ecologia” que saiu pela ed ArtMed em 2010. Este é uma excelente referência para quem quer começar a estudar estatística básica, especialmente com aplicações em ecologia.
Experimental Design and Data Analysis for Biologists (Quinn & Keough 2002): Outro excelente livro introdutório sobre estatística com exemplos práticos para ecologia e um dos preferidos dos autores deste livro aqui. Ele aborda os modelos lineares mais comuns vistos em disciplinas de bioestatística, tais como regressão e ANOVA, mas também traz uma boa introdução sobre GLMs e métodos mais modernos de análise de dados. Mas o mais importante, a lógica de ensino dos métodos segue muito o que preconizamos neste livro e não podemos recomendá-lo o bastante para quem está começando a estudar estatística.
The R book, 2a edição (Crawley 2012): Livro que vai do básico ao avançado, tem informações sobre linguagem R, estatística univariada, multivariada e modelagem. Relativamente fácil de compreender. Capítulos trazem funções para criação e manipulação de gráficos passo-a-passo.
Numerical ecology, 3a edição (Legendre & Legendre 2012): Este é o manual teórico essencial e leitura obrigatória para entender mais a fundo qualquer análise multivariada. Esta nova edição traz um capítulo novo sobre análises multiescalares em ecologia de comunidade, com exemplos de aplicação de Moran Eigenvector Maps (MEMs).
Biological Diversity: Frontiers in Measurement and Assessment (Magurran & McGill 2012): Livro editado com vários capítulos sobre medidas tradicionais e alternativas de biodiversidade. Também atualiza medidas de estimativa de diversidade, uma revisão sobre diversidade funcional e filogenética. Esse é uma boa porta de entrada para entender os aspectos teóricos e meandros da análise de dados de biodiversidade.
Mixed effects models and extensions in ecology with R (Zuur et al. 2009): Este continua sendo a melhor introdução para modelos lineares generalizados (e de efeito misto), modelos de mínimos quadrados generalizados, Modelos Aditivos Generalizados para biólogos e ecólogos. O livro contém vários capítulos em que o funcionamento dos modelos é explicado de maneira bastante atraente, mantendo a matemática no mínimo. Todos os exemplos são com dados reais produzidor por ecólogos. Este é um bom livro intermediário para quem quer se aprofundar nas análises mais modernas feitas em ecologia.
Geocomputation with R (Lovelace et al. 2020): Esse livro tornou-se rapidamente a principal referência sobre manipulação, visualização, análise e modelagem de dados geoespaciais no R. O livro é dividido em três partes: i) fundamentos, ii) extensões e iii) aplicações. A parte um é voltada para a fundamentação dos dados geográficos no R, descrevendo a natureza dos conjuntos de dados espaciais e métodos para manipulá-los, assim como a importação/exportação de dados geográficos e a transformação de sistemas de referência de coordenadas. A Parte II representa métodos que se baseiam nessas fundações, abrange a criação de mapas avançados (incluindo mapeamento da web), “pontes” para GIS, compartilhamento de código reproduzível e como fazer validação cruzada na presença de autocorrelação espacial. A Parte III aplica o conhecimento adquirido para resolver problemas do mundo real, incluindo representação e modelagem de sistemas de transporte, localização ideal para lojas ou serviços e modelagem ecológica. Os exercícios no final de cada capítulo fornecem as habilidades necessárias para lidar com uma série de problemas geoespaciais. As soluções para cada capítulo e materiais complementares estão disponíveis nesse link e o livro nesse link.
Recomendamos ainda para o amadurecimento em análises ecológicas as seguintes leituras: Manly (1991), Pinheiro and Bates (2000), Scheiner and Gurevitch (2001), K. P. Burnham and Anderson (2014), Venables and Ripley (2002), Zar (2010), A. F. Zuur, Ieno, and Smith (2007), G. James et al. (2013), Fox, Negrete-Yankelevich, and Sosa (2015), Thioulouse et al. (2018) e Touchon (2021).