O que é a Linguagem R e para que serve?
No artigo de hoje vamos dar a conhecer a linguagem de programação R, muito conhecida na ciência de dados, por causa da sua enorme contribuição com Análises Estatísticas avançadas e Machine Learning.
O que é a Linguagem R?
O R é uma linguagem de programação nascida no meio académico há menos de 30 anos, e criada pelos professores estatísticos da Universidade de Auckland, na Nova Zelândia, Ross Ihaka e Robert Gentleman, a partir da linguagem C (uma das mais antigas e “mãe” de várias outras linguagens). Além disso, o nome R provém, em parte, das iniciais dos seus criadores.
É uma linguagem desenvolvida para lidar com estatística, análise de dados e machine learning, pelo que a torna tão conhecida entre os cientistas de dados.
A linguagem R é muito utilizada no meio académico para análise, tratamento e visualização de dados. No entanto, é cada vez mais comum a integração do R com softwares da área de negócios, como por exemplo, o Power BI da Microsoft, a plataforma número 1 em Business Intelligence, segundo a Gartner.
O R está-se a tornar cada vez mais popular porque a mineração de dados entrou numa era de ouro, seja para definir preços de anúncios, aumentar portfólios, segmentar genoma genético, encontrar novos medicamentos de forma mais rápida ou ajustar modelos financeiros. Empresas tão diversas como a Google, a BBC, The New York Times, Pfizer, Shell, entre muitas outras já o utilizam. Isto porque a linguagem R permite-nos realizar a transição do BI (Business Intelligence) tradicional para a ciência de dados, tendo em vista o potencial desta ferramenta no que concerne as análises estatísticas avançadas.
Nos últimos anos o R evoluiu muito a nível computacional e disponibiliza uma ampla variedade gráfica, de técnicas e cálculos estatísticos, entre eles:
- Análises de Séries Temporais;
- Inferência paramétrica, não paramétrica e inferência bayesiana;
- Modelagem Linear e Não Linear;
- Análise de Dados Multivariada (técnicas de segmentação de dados e redução de dimensionalidade, classificação, análise de cluster, agrupamento, entre outros);
- Machine Learning, Inteligência Artificial, Deep Learning e muito mais.
Além de ser uma linguagem popular entre os cientistas de dados, vamos ver alguns motivos para aprendermos a programar em R. Vejamos:
1. Número de pacotes em crescimento exponencial
Como a comunidade que desenvolve pacotes é grande e ativa, cada vez mais aumentam os pacotes disponibilizados dentro da ferramenta, que contribuem com o CRAN (Comprehensive R Archive Network) diariamente. Até agora, já são mais de 18 mil pacotes (bibliotecas de funções, dados e códigos compilados) disponíveis para download.
Isto ajuda a colocar o R no topo das ferramentas e softwares de programação para Data Science, sem contar com o facto de estes pacotes serem gratuitos.
A taxa de crescimento do pacote R não mostra sinais de diminuir. Como podemos ver no gráfico acima (criado através deste script por Gergely Daróczi), o crescimento dos pacotes R não mostra sinais de estagnação em breve.
Vale a pena ressaltar que não é viável ter 18 mil pacotes instalados de uma só vez no R, por isso existe um conjunto de pacotes pré instalados de padrão, e caso queiramos utilizar outros, conseguimos adicionar novos e estender os recursos do R, através do comando:
> install.packages("nome do pacote desejado")
E mais, caso já tenhamos o pacote instalado, podemos simplesmente carregá-lo no R com o comando
> library(nome do pacote desejado)
É provável que qualquer que seja a sua área de interesse, já existam pacotes desenvolvidos e que serão imediatamente úteis.
Felizmente existem muitos recursos na web para nos ajudar a encontrar com mais facilidade o pacote que procuramos. Vejamos alguns recursos disponíveis:
- MRAN (o Microsoft R Application Network) fornece uma ferramenta de pesquisa para pacotes R no CRAN.
- Para encontrar os pacotes mais populares, Rdocumentation.org fornece uma tabela de classificação de pacotes por número de downloads. Também fornece listas de pacotes recém-lançados e atualizados.
- O CRAN fornece visualizações de tarefas de pacote , disponibilizando um diretório de pacotes por área de tópico (como por exemplo: psicometria, análise de sobrevivência, computação de alto desempenho, meta análise, genética e processamento de linguagem natural). MRAN e RDocumentation.org também fornecem versões pesquisáveis com base nas visualizações de tarefas CRAN.
- Para encontrar pacotes R populares e ativos no GitHub, consulte a lista de repositórios Trending R.
- Para notícias selecionadas sobre pacotes R atualizados e novos, verifique o Package Picks de Joseph Rickert no blog RViews do RStudio, e também os Package Spotlights publicados com cada lançamento do Microsoft R Open. Cranberries também fornece um feed abrangente não curado de pacotes novos e atualizados.
2. Plataforma abrangente de análises estatísticas
Uma das grandes vantagens da linguagem R é que ela foi criada para lidar com dados, o que permite análise e solução para diferentes áreas do conhecimento, como, por exemplo, em econometria, finanças, biologia, medicina, ensaios clínicos, engenharia, jurismetria, bioestatística, ciências sociais, etc.
É uma forte ferramenta de análises estatísticas, uma vez que, quando um novo método é desenvolvido academicamente, normalmente, não só é publicado em artigos, mas também testado e aplicado em ambiente R.
Desta forma, para novos utilizadores existe uma facilidade em escrever fórmulas mais complexas em R, pois praticamente todos os tipos de modelos e testes estatísticos já estão disponíveis para uso na linguagem. Isto mostra que já chegamos a um ponto em que tanto para desenvolvedores quanto para novos utilizadores é uma grande mais valia, pois democratiza a criação de pesquisas com a linguagem e permite maior flexibilidade de programação.
E por falar em flexibilidade, vale a pena ressaltar que, assim como acontece com qualquer linguagem de programação, geralmente há mais de uma maneira de fazer as coisas por meio de R.
Além disso, podemos destacar que o ‘Help’ do R (menu de ajuda) é extramente útil e relevante para auxiliar no processo de aprendizagem desta linguagem, uma vez que contém uma vasta documentação de apoio e até mesmo exemplos.
Vejamos no gráfico a seguir uma comparação entre os diferentes softwares do mercado e o número de artigos publicados no ano de 2018. O R encontra-se em segundo lugar. Só é destronado pelo SPSS, um outro software estatístico, muito bom também, porém com uma licença caríssima por utilizador e muito utilizado nas áreas médicas, uma vez que não exige o uso de programação e sim de botões. Um outro ponto negativo do uso do SPSS é o facto de ele ser fácil de usar para as coisas padrão, mas muito frustrante se quisermos fazer algo que ainda não está pré-programado.
O R não ganhou notoriedade à toa. O crescimento vertiginoso de pacotes estatísticos, como ChainLadder (estimativa de créditos em reservas; seguros), Bioconductor (genética) e RStoolbox (análise de sensoriamento remoto de alto nível), impulsionaram a ferramenta a ocupar uma posição de destaque.
3. Obtém dados de outras fontes
Obter dados de outras fontes pode ser extremamente útil para a sua análise. Com a Linguagem R, você pode facilmente importar dados de uma variedade ampla de fontes, como bancos de dados, textos, repositórios especializados, como por exemplo o GitHub, além de códigos de outras linguagens, como Python, e softwares como o Excel. A grande diferença é que também podemos gravar os nossos dados noutro outro sistema.
4. Gráficos são espetaculares
É possível contar com pacotes que implementam visualizações dinâmicas em Javascript, como o rdimple e o leaflet (uma das bibliotecas JavaScript de código aberto mais populares para mapas interativos, utilizada por sites que vão desde o The New York Times ao GitHub e Flickr). Ou para visualizações estatísticas, como por exemplo o famoso ggplot2, considerado como uma implementação da ‘gramática dos gráficos’ em R.
O R é amplamente conhecido pelos seus recursos de visualização de dados. É uma ótima ferramenta para criar relatórios e gráficos.
5. É gratuito
Normalmente, os softwares comerciais de ciências de dados e análise estatística, são pagos e muito caros. No entanto, para utilizar o R ou o RStudio (que é um ambiente de desenvolvimento para a linguagem R ), o utilizador não precisa desembolsar um cêntimo sequer, pois é gratuito e de domínio publico, tem o seu código livre.
Como podemos ver, as vantagens são enormes.
Acredito que existem muitos outros motivos para aprender a programar em R, mas esses já são suficientes para começar a incentivá-lo.
Aqui na Portal Gestão temos dois cursos de R: um para iniciantes que queiram aprender a programar em R do zero e outro mais avançado de Machine Learning com R. E vem mais novidade por aí. Não deixem de acompanhar nosso site.
Espero por vocês na semana que vem. Até breve.