Vantagens e desvantagens da linguagem R
No artigo de hoje, vamos apresentar alguns prós e contras da linguagem R. Entenda um pouco mais sobre essa linguagem estatística tão utilizada pelos cientistas de dados.
Se não faz ideia do que é esta letrinha do alfabeto no mundo da ciência de dados, recomendo que leia o nosso último artigo sobre esse tema, em que falamos sobre o que é e para que serve, no seguinte link:
https://www.portal-gestao.com/artigos/8139-o-que-%C3%A9-a-linguagem-r-e-para-que-serve.html
A linguagem R nasceu com o propósito de ser uma ferramenta open source, como forma de balancear o mercado em relação às soluções proprietárias. É um projeto voluntário, uma vez que se trata de um conjunto de pessoas que estão a dedicar o seu tempo para desenvolvê-la e oferecê-la à comunidade. No entanto, e por ser um trabalho voluntário, não existe nenhuma obrigação por parte dos seus desenvolvedores de oferecer suporte para corrigir eventuais falhas e bugs.
A verdade é que não existe solução perfeita! Se estiver à procura, eu vou ser, infelizmente, aquela pessoa chata que vai dizer a verdade: a solução perfeita não existe, pode parar de procurar! Como tudo na vida, também as ferramentas têm prós e contras. A linguagem R é gratuita, mas não oferece suporte. As plataformas Stata, SAS e IBM SPSS, por exemplo, que são as principais concorrentes do R, têm suporte, mas são ferramentas proprietárias, ou seja, têm custo de licença, logo são pagas. Portanto, cabe a cada empresa, procurar a solução melhor, de acordo com a própria realidade.
Vamos começar a apontar as vantagens da linguagem R:
1. Grande variedade de pacotes disponíveis
Quando instalamos o interpretador da linguagem R, estamos, na verdade, a instalar o que chamamos de R Base, ou seja, os pacotes básicos da linguagem. Estes pacotes básicos oferecem, claro, algumas funcionalidades. Mas quando precisamos de algo um pouco mais avançado, precisamos recorrer aos pacotes.
Esses pacotes, nada mais são do que grupos de scripts em R que foram desenvolvidos por voluntários em todos os cantos do mundo. Vamos supor então que alguém decidiu criar um pacote de visualização de dados, e seguiu todos os passos recomendados no site da linguagem R , construiu os scripts, gerou o pacote e mandou para a aprovação. O pacote é aprovado e, então, vai para um repositório de pacotes da linguagem, chamado CRAN (Comprehensive R Archive Network).
Hoje em dia existem mais de 20 mil pacotes à nossa disposição. O que é que isto significa? Que não precisamos “inventar a roda”. É bem provável que alguém já tenha desenvolvido um pacote para alguma operação que temos de executar. Vamos então até o repositório e utilizamos gratuitamente aquele pacote, obviamente, respeitando os termos de uso, caso eles tenham sido definidos.
Essa grande variedade de pacotes dá-nos uma grande vantagem.
2. Flexibilidade e rapidez
A linguagem R oferece grande flexibilidade e rapidez. Por se tratar de uma linguagem de script, o único limite somos nós, os desenvolveres. Nós temos de criar o script. Se soubermos o que temos de fazer, temos uma flexibilidade muito grande. Ao contrário de um pacote proprietário, onde não temos tanta flexibilidade, não podemos fazer alterações ao pacote base. Com a linguagem R, podemos até mesmo mudar o código fonte. Isto porque ela é uma linguagem totalmente open source.
E com relação à rapidez, a linguagem R foi desenvolvida em linguagem C e Fortran, que são linguagens de baixo nível, ou seja, bem próximas da máquina, que garantem uma alta velocidade de execução.
3. Análise Estatística
Antes de mais nada, é importante dizer que existem muitos produtos no mercado para análise estatística, para além do R, nomeadamente, SAS, SPSS, Statistica, Stata, Minitab…
Mas o que faz a linguagem R ser tão especial?
Há uma questão crucial aqui: o R é gratuito e open source. Enquanto que os demais são pagos. A linguagem Python possui alguns bons pacotes estatísticos, também gratuitos e open source, que foram inspirados na linguagem R, mas que ainda estão em fase de amadurecimento.
Algumas técnicas mais recentes, para análise de dados, estão disponíveis para o uso primeiro em R. Muitos pacotes experimentais também estão disponíveis em R. De facto, muitas competições do Kaggle (que é a maior plataforma de hospedagem para projetos e competições de Data Science que existe atualmente), os vencedores (que estão entre os melhores cientistas de dados do mundo) quase sempre usam o R para construir os seus modelos ou, pelo menos, para realizar as análises estatísticas.
Mas, como tudo na vida, a linguagem R também tem suas desvantagens. Vejamos:
1. Não há interface gráfica (tudo é feito por linha de comando)
Para quem vem do mundo Windows e está acostumado com o rato, cliques, botões e interface gráfica, o impacto inicial pode ser um pouco grande. Porque temos que, na verdade, digitar as instruções, ou seja, temos de codificar.
Temos o RStudio, que é uma ferramenta que facilita o nosso trabalho. Mas em última instância, temos de escrever o código. Deixamos o rato de lado e passamos a usar mais o teclado.
Para muitas pessoas, isso é uma desvantagem. Para mim, é apenas uma característica. Quem já trabalha no ambiente da ciência de dados já tende a encarar isto de forma mais leve.
2. Limitação no uso de memória (principalmente com datasets muito grandes)
Esta sim, é uma grande desvantagem da linguagem R! Quando trabalhamos com datasets muito grandes, a linguagem R não consegue processar isso de maneira adequada, mesmo se a máquina tiver muita memória RAM.
Devido a regras de escopo da linguagem, o R geralmente perde no requisito da gestão de memória física, para outros pacotes estatísticos comerciais.
E para isso, precisamos encontrar alternativas, como por exemplo, fracionar o dataset em porções menores.
Muitos avanços têm ocorrido nesta área nos últimos anos e embora o problema de memória ainda exista, foi minimizado pela capacidade de novos hardwares com alta capacidade de memória.
Por hoje é só e aguardo vocês na próxima semana.