Skip to main content

#analytics

  • Imagem:

Termos estatísticos que você ainda não conhece, mas que podem alavancar o seu negócio


Um dicionário estatístico para quem não é da área: no artigo de hoje, vou traduzir alguns termos teóricos em casos práticos que estão a revolucionar o mercado coorporativo. 

google tradutor
Em muitos projetos de análises de negócios, queremos encontrar “correlações” entre uma variável específica descrevendo um indivíduo e outras variáveis. Por exemplo, em histórico de dados podemos saber quais clientes deixaram a empresa após o vencimento de seus contratos. Podemos querer descobrir que outras variáveis se correlacionam com um cliente deixar a empresa no futuro próximo, através de um modelo de Churn, por exemplo. Encontrar tais correlações são os exemplos mais básicos de tarefas de classificação e regressão.


Desse modo, pretendo esclarecer 9 termos mais teóricos, porém voltados para aplicações reais, em situações comuns dentro do ambiente corporativo, que podem lhe ajudar a gerar insights valiosíssimos. Que tal pensarmos sobre esses assuntos?


1. Classificação e estimativa de probabilidade de classe tentam prever, para cada indivíduo de uma população, a que (pequeno) conjunto de classes este indivíduo pertence. Geralmente, as classes são mutuamente exclusivas. Um exemplo de pergunta de classificação seria: “Entre todos os clientes da minha empresa, quais são suscetíveis de responder a determinada oferta?” Neste exemplo, as duas classes poderiam ser chamadas: vai responder e não vai responder. Para uma tarefa de classificação, o processo de mineração de dados produz um modelo que, dado um novo indivíduo, determina a que classe o indivíduo pertence.

1.0 Classificação

Uma tarefa intimamente relacionada é pontuação ou estimativa de probabilidade de classe. O modelo de pontuação aplicado a um indivíduo produz, em vez de uma previsão de classe, uma pontuação que representa a probabilidade (ou outra quantificação de probabilidade) de que o indivíduo pertença a cada classe. Em nosso cenário de resposta ao cliente, um modelo de pontuação seria capaz de avaliar cada cliente e produzir uma pontuação da probabilidade de cada um responder à oferta. Classificação e pontuação estão intimamente relacionadas; um modelo que pode fazer um, normalmente pode ser modificado para fazer o outro.

2. Regressão (“estimativa de valor”) tenta estimar ou prever, para cada indivíduo, o valor numérico de alguma variável. Um exemplo de pergunta de regressão seria: “Quanto determinado cliente usará do serviço?” A propriedade (variável) a ser prevista aqui é o uso do serviço, e um modelo poderia ser gerado analisando outros indivíduos semelhantes na população e seus históricos de uso. Um procedimento de regressão produz um modelo que, dado um indivíduo, calcula o valor da variável específica para aquele indivíduo. A regressão está relacionada com a classificação, porém, as duas são diferentes. Informalmente, a classificação prevê se alguma coisa vai acontecer, enquanto a regressão prevê quanto de alguma coisa vai acontecer.

2.0 Regressão

2.1 Regressão

3. Combinação por similaridade tenta identificar indivíduos semelhantes com base nos dados conhecidos sobre eles. A combinação de similaridade pode ser usada diretamente para encontrar entidades semelhantes. Por exemplo, a IBM está interessada em encontrar empresas semelhantes aos seus melhores clientes comerciais, a fim de concentrar sua força de vendas nas melhores oportunidades. Eles usam a combinação por similaridade com base dos dados “firmográficos”, que descrevem as características das empresas. A combinação por similaridade é a base de um dos métodos mais populares para se fazer recomendações de produtos (encontrar pessoas semelhantes a você, em termos de produtos que tenham gostado ou comprado). Medidas de similaridade são a base de determinadas soluções ou outras tarefas de mineração de dados, como classificação, regressão e agrupamento.

3.0 Similaridade

4. Agrupamento tenta reunir indivíduos de uma população por meio de sua similaridade, mas não é motivado por nenhum propósito específico. Um exemplo de pergunta de agrupamento seria: “Nossos clientes formam grupos naturais ou segmentos?” O agrupamento é útil na exploração preliminar de domínio para ver quais grupos naturais existem, pois, esses grupos, por sua vez, podem sugerir outras tarefas ou abordagens de mineração de dados. O agrupamento também é utilizado como entrada para processos de tomada de decisão com foco em questões como: quais produtos devemos oferecer ou desenvolver? Como nossas equipes de atendimento ao cliente (ou equipas de vendas) devem ser estruturadas?


5. Agrupamento de coocorrência (também conhecido como mineração de conjunto de itens frequentes, descoberta da regra de associação e análise de portfólio de ações) tenta encontrar associações entre entidades com base em transações que as envolvem. Um exemplo de pergunta de coocorrência seria: Quais itens são comumente comprados juntos? Enquanto o agrupamento analisa as semelhanças entre os objetos com base em seus atributos, o agrupamento de coocorrência considera a similaridade dos objetos com base em suas aparições conjuntas nas transações. Por exemplo, analisar os registos de compras de um supermercado pode revelar que carne moída é comprada junto com molho de pimenta com muito mais frequência do que se poderia esperar. Decidir como agir de acordo com essa descoberta pode exigir um pouco de criatividade, mas pode sugerir uma promoção especial, a exibição do produto ou uma oferta combinada.
Coocorrência de produtos em compras é um tipo comum de agrupamento conhecido como análise de portfólio de ações. Alguns sistemas de recomendação também realizam um tipo de agrupamento por afinidade encontrando, por exemplo, pares de livros que são frequentemente comprados pelas mesmas pessoas (“pessoas que compraram X também compraram Y”). O resultado do agrupamento por coocorrência é uma descrição dos itens que ocorrem juntos. Essas descrições geralmente incluem estatísticas sobre a frequência da coocorrência e uma estimativa do quanto ela é surpreendente.


6. Perfilhamento (também conhecido como descrição de comportamento) tenta caracterizar o comportamento típico de um indivíduo, grupo ou população. Um exemplo de pergunta de perfilhamento seria: “Qual é o uso típico de telemóvel nesse segmento de cliente?” O comportamento pode não ter uma descrição simples; traçar o perfil do uso do telemóvel pode exigir uma descrição complexa das médias durante a noite e finais de semana, uso internacional, tarifas de roaming, conteúdos de texto e assim por diante. O comportamento pode ser descrito de forma geral, para uma população inteira, ou ao nível de pequenos grupos ou mesmo indivíduos.
O perfilhamento muitas vezes é usado para estabelecer normas de comportamento para aplicações de deteção de anomalias como deteção de fraudes e monitoramento de invasões a sistemas de computador (como alguém invadindo sua conta no iTunes). Por exemplo, se sabemos que tipo de compras uma pessoa normalmente faz no cartão de crédito, podemos determinar se uma nova cobrança no cartão se encaixa no perfil ou não. Podemos usar o grau de disparidade como uma pontuação suspeita e emitir um alarme, se for muito elevada.


7. Previsão de vínculotenta prever ligações entre itens de dados, geralmente sugerindo que um vínculo deveria existir e, possivelmente, também estimando a força do vínculo. A previsão de vínculo é comum em sistemas de redes sociais: “Como você e João partilham 10 amigos, talvez você gostaria de ser amigo de Manuel?” A previsão de vínculo também pode estimar a força de um vínculo. Por exemplo, para recomendar filmes para clientes pode-se imaginar um gráfico entre os clientes e os filmes que eles já assistiram ou classificaram. No gráfico, buscamos vínculos que não existem entre os clientes e os filmes, mas que prevemos que deveriam existir e deveriam ser fortes. Esses vínculos formam a base das recomendações.
Exemplo atuais de sistemas de recomendação: Netflix, Amazon, Spotify,…


8. Redução de dados (redução de dimensionalidade) tenta pegar um grande conjunto de dados e substituí-lo por um conjunto menor que contém grande parte das informações importantes do conjunto maior. Pode ser mais fácil de lidar com ou processar um conjunto menor de dados. Além do mais, ele pode revelar melhor as informações. Por exemplo, um enorme conjunto de dados sobre preferências de filmes dos consumidores pode ser reduzido a um conjunto de dados muito menor revelando os gostos do consumidor mais evidentes na visualização de dados (por exemplo, preferências de gênero dos espectadores). A redução de dados geralmente envolve perda de informação ou mesmo algum tipo de agregação. O importante é o equilíbrio para uma melhor compreensão.


9. Modelagem causal tenta nos ajudar a compreender que acontecimentos ou ações realmente influenciam outras pessoas. Por exemplo, considere que usamos modelagem preditiva para direcionar anúncios para consumidores e observamos que, na verdade, os consumidores alvo compram em uma taxa mais elevada após terem sido alvo. Isso aconteceu porque os anúncios influenciaram os consumidores a comprar? Ou os modelos preditivos simplesmente fizeram um bom trabalho ao identificar os consumidores que teriam comprado de qualquer forma?
Técnicas de modelagem causal incluem aquelas que envolvem um investimento substancial em dados, como experimentos randomizados controlados (por exemplo, os chamados “testes A/B”), bem como métodos sofisticados para obter conclusões causais a partir de dados observacionais. Ambos os métodos experimentais e observacionais para modelagem causal geralmente podem ser visualizados como análises “contra factuais”: eles tentam compreender qual seria a diferença entre as situações — exclusivas entre si — onde o evento “tratamento” (por exemplo, mostrar um anúncio para um indivíduo em particular) aconteceria e não aconteceria.


Em todos os casos, um cuidadoso cientista de dados sempre deve incluir, com uma conclusão causal, os pressupostos exatos que devem ser feitos para que a conclusão causal se mantenha (essas suposições sempre existem — sempre pergunte). Ao aplicar a modelagem causal, uma empresa precisa ponderar o dilema de aumentar os investimentos para reduzir as suposições formuladas versus decidir que as conclusões são suficientemente boas, dadas as suposições. Mesmo no experimento mais cuidadoso, randomizado e controlado, são feitas suposições que poderiam invalidar as conclusões causais. A descoberta do “efeito placebo” na medicina ilustra uma situação notória em que uma suposição foi ignorada em uma experimentação randomizada cuidadosamente projetada.


O que acharam? Que tal investirmos em inteligência para o nosso negócio?
Espero vocês no próximo artigo.
Isa

Para quem trabalha já trabalha com Power BI, já deve ter reparado que há etapas que são muito parecidas de projeto para projeto, como por exemplo a criação de tabela calendário e criação de medidas DAX de time Intelligence. O intuito desse artigo é mostrar uma das formas de otimizar o nosso tempo para a realização dessas tarefas.

 

  • Imagem:

Para aquelas empresas que desenvolvem a sua estratégia em torno do cliente e da sua satisfação, há três modelos de machine learning de aplicação relativamente fácil e de grande impacto: clustering, como forma de conhecer o comportamento do consumidor, regras de associação, que descobrem que produtos se vendem melhor em conjunto do que separadamente e churn, que prevê que clientes têm maior propensão a deixar de o ser.

  • Imagem:

Dentro do universo analytics, uma das áreas que mais chama a minha atenção (e cada vez mais) é a dos dados em real-time. Pelo facto de se produzirem em quantidade e qualidade crescente e pela utilidade da tomada de decisões “no momento” em que os eventos ocorrem, esta é uma área em crescimento.

O desafio que veremos neste post é o de criar um streaming dataset no Power BI a partir de um ficheiro CSV, disponível a partir de uma API de uma aplicação que recebe dados ao segundo.

For those who already work with Power BI, you may have noticed that there are steps that are very similar from project to project, such as creating a calendar table and creating DAX measures for time Intelligence. The purpose of this article is to show you one of the ways to optimize our time to perform these tasks.

 

  • Imagem:

Statistical terms that you don't know yet, but that can leverage your business


A statistical dictionary for those who are not in the area: in today's article, I will translate theoretical terms into practical cases.

google tradutor
In many business correspondence projects, we want to find “correlations” between a specific variable describing an individual and variables. For example, we may know which customers in a historic company after their contracts expire. We can find out what other variables can correlate with a customer in the near future, through a Churn model, for example. Find correlations in the most basic examples of classification tasks and such.
Thus, it is intended to generate 9 more theoretical terms, perfect for real applications, in common situations within the corporate environment, which can help to provide valuable insights. How about we think about these matters?


1. Classification and probability estimation of a class to predict, for each individual in the population, to which (small) set of classes this individual belongs. classes are mutually exclusive. An example of a ranking question would be: “Among all of my company’s customers, who are the respondents to a particular offer?” In this example, both classes can be called: will respond and will not respond. For a classification task, the data mining process of producing a model that, given a new individual, determines the individual's class.

1.0 Classificação

A controlled task is evaluated or performed reliably. The model applied to an individual produced, rather than a class prediction, an attempt to represent the probability (or other quantification of probability) that the individual by class. In our customer response scenario, an assessment model would be able to assess each customer and produce a probability of each response to the offer. Classification and evaluation closely related; a model that can do one can usually be modified to do the other.

2. Value estimation(“Value estimation”) attempts to estimate either for each individual, or predict the numerical value of some variable. An example of demand determined to use the series: “How much service?” The property (to be predicted, here is a service usage variable and a model that can be analyzed and others similar) similar in the population and their usage histories. A specific procedure specifies a model that, given an individual, calculates the value of the variable for that individual. A, is related to classification, however, the two are different. Informally, a classification predicts that the thing will happen, which is something that will happen.


3. Matching by similarityattempts to identify similars based on known data about them. Similarity similarity can be used directly to find similar entities. For example, IBM is interested in finding companies similar to its best business customers, in order to focus its sales force on the best opportunities. They use similarity with “firmographic” databases, which describe the characteristics of companies. Similarity pricing is a basis for one of the most popular methods to make them look like you, in terms of products they liked or bought.) Baseline measures of solutions or other data maintenance tasks, such as units of operation, similarity and grouping.

3.0 Similaridade

4. Attempting to group a population by its similarity, but not motivating for any specific purpose. An example of a grouping question would be: “Do our customers form natural groups or segments?” Clustering is useful in the preliminary exploration of domains to exist, as these groups can sometimes suggest other tasks or sometimes their data exploration groups. Clustering is also used as input to decision-making processes focusing on questions such as: what products should we offer or develop? How should our customer service teams (or sales equipment) be structured?


5. Co-occurrence clustering (also known as frequent itemset mining, association rule discovery, and stock portfolio analysis) attempts to find associations between entities based on transactions that involve them. An example of a co-occurrence question would be: What items are commonly purchased together? While clustering analyzes the similarities between objects based on their attributes, co-occurrence clustering considers the similarity of objects based on their joint appearances in transactions. For example, analyzing a supermarket's purchase records may reveal that ground beef is purchased with hot sauce much more often than one might expect. Deciding how to act on this finding might take some creativity, but it might suggest a special promotion, product display, or a combined offer.
Co-occurrence of products in purchases is a common type of grouping known as stock portfolio analysis. Some recommender systems also perform a type of affinity grouping by finding, for example, pairs of books that are often purchased by the same people (“people who bought X also bought Y”). The result of grouping by co-occurrence is a description of the items that occur together. These descriptions usually include statistics on the frequency of the co-occurrence and an estimate of how surprising it is.


6. Profiling(also known as behavior description) attempts to characterize the typical behavior of an individual, group or population. An example of a profiling question would be, “What is typical cell phone usage in this customer segment?” The behavior may not have a simple description; profiling mobile phone usage may require a complex description of overnight and weekend averages, international usage, roaming charges, text content and so on. Behavior can be described generally, for an entire population, or at the level of small groups or even individuals.
Profiling is often used to establish norms of behavior for anomaly detection applications such as fraud detection and monitoring computer system intrusions (such as someone breaking into your iTunes account). For example, if we know what kind of purchases a person normally makes on their credit card, we can determine whether a new charge on the card fits the profile or not. We can use the degree of disparity as a suspect score and raise an alarm if it is too high.


7. Link prediction attempts to predict links between data items, usually suggesting that a link should exist and possibly also estimating the strength of the link. Bond prediction is common in social networking systems: “Since you and João share 10 friends, maybe you would like to be friends with Manuel?” Bond prediction can also estimate the strength of a bond. For example, to recommend movies to customers, you can imagine a graph between customers and the movies they have watched or rated. In the graph, we look for bonds that don't exist between customers and movies, but that we anticipate should and should be strong. These links form the basis of the recommendations.
Current examples of recommender systems: Netflix, Amazon, Spotify,…


8. Data reduction (dimensionality reduction) attempts to take a large set of data and replace it with a smaller set that contains much of the important information from the larger set. It may be easier to handle or process a smaller set of data. What's more, it can reveal the information better. For example, a huge dataset on consumers' movie preferences can be reduced to a much smaller dataset revealing the consumer tastes most evident in the data visualization (eg, viewers' genre preferences). Data reduction usually involves loss of information or even some kind of aggregation. The important thing is the balance for a better understanding.


9. Causal modeling tries to help us understand what events or actions actually influence other people. For example, consider that we use predictive modeling to target ads to consumers, and we observe that target consumers actually buy at a higher rate after they have been targeted. Was this because the ads influenced consumers to buy? Or did the predictive models simply do a good job of identifying consumers who would have purchased anyway?
Causal modeling techniques include those that involve a substantial investment in data, such as randomized controlled experiments (eg, so-called “A/B tests”), as well as sophisticated methods for drawing causal conclusions from observational data. Both experimental and observational methods for causal modeling can often be viewed as “counterfactual” analyses: they try to understand what would be the difference between situations—which are unique to each other—where the “treatment” event (e.g., showing an ad to a particular individual) would and would not happen.


In all cases, a careful data scientist should always include, with a causal conclusion, the exact assumptions that must be made in order for the causal conclusion to hold (these assumptions always exist—always ask). When applying causal modeling, a company needs to weigh the dilemma of increasing investments to reduce the assumptions made versus deciding that the conclusions are good enough given the assumptions. Even in the most careful, randomized, controlled experiment, assumptions are made that could invalidate causal conclusions. The discovery of the “placebo effect” in medicine illustrates a notorious situation where an assumption was ignored in a carefully designed randomized trial.


What did you think? How about investing in intelligence for our business?


Hope to see you in the next article.
Isa

  • Imagem:

Within the analytics universe, one of the areas that catches my attention the most (and increasingly so) is real-time data. Due to the fact that data is produced in increasing quantity and quality and the usefulness of it for making decisions “at the moment” when events occur, this is a growing area.

The challenge we will see in this post is to create a streaming dataset in Power BI from a CSV file, available from an API of an application that receives data by the second.

  • Imagem:

Comecei a dar formação em Excel para finanças há cerca de 10 anos atrás. Em 2015, com o lançamento do Power BI, iniciei uma série de ações de formação nesta revolucionária tecnologia de análise e visualização de dados, com um enfoque especial na gestão das empresas. Hoje, somos uma equipa de formadores e consultores e por nós passaram já milhares de formandos e mais de 500 eventos de formação. No início, registava os dados dos eventos de formação numa enorme folha de cálculo, que entretanto se tornou obsoleta e frágil e que, por isso, foi substituída pela Training App, uma aplicação para gestão de formação desenvolvida por nós mesmos.

  • Imagem:

I started teaching Excel for finance about 10 years ago. In 2015, with the launch of Power BI, I started a series of training sessions on this revolutionary data analysis and visualization technology, with a special focus on business management. Today, we are a team of trainers and consultants and thousands of trainees and more than 500 training events have passed through us. In the beginning, I recorded the data of the training events in a huge spreadsheet, which has since become obsolete and fragile and has therefore been replaced by the Training App, an application for training management developed by ourselves.