Você está na página 1de 19

SmartMail| Entidade Promotora:

Parceiros:

Processos Estatsticos
Descritivos e
Inferenciais
Anlise do Estado da Arte

1/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

ndice
Introduo ............................................................................................................................................2
Processos Estatsticos Descritivos ........................................................................................................3
Definio...........................................................................................................................................3
Construtores Matemticos ..............................................................................................................3
Anlise Univariada ........................................................................................................................3
Anlise Bivariada ..........................................................................................................................6
Processos Estatsticos Inferenciais .......................................................................................................8
Definio...........................................................................................................................................8
Construtores Matemticos ..............................................................................................................8
Estimao .....................................................................................................................................9
Teste de Hiptese .........................................................................................................................9
Estado da Arte ....................................................................................................................................11
Aplicabilidade ao domnio do email ...................................................................................................12
Aplicabilidade da estatstica descritiva ..........................................................................................12
Mecanismos de sugesto dos contactos mais relevantes .........................................................12
Taxas de distribuio de email ...................................................................................................12
Deteo de relevncia de conversaes ....................................................................................13
Aplicabilidade da estatstica inferencial .........................................................................................13
Classificao de organizaes ....................................................................................................13
Deteo de eventos....................................................................................................................14
Monitorizao e gesto de contactos ........................................................................................14
Adequao ao negcio .......................................................................................................................16
Comunicao com empresas .........................................................................................................16
Comunicao com consumidores ..................................................................................................16
Referncias .........................................................................................................................................17

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Introduo
O nome do projeto SMART Mail encontra-se profundamente ligado ao seu objetivo principal; uma
utilizao gil, produtiva e sobretudo mais inteligente do email, enquanto canal privilegiado de
comunicao corporativa ou em lazer.
Para atingir tais benefcios ser necessrio conceptualizar e desenvolver novas ferramentas e
interfaces que agilizem todo este processo de gesto, assim como, acrescentem mais-valias, sob a
forma de mtricas ou grficos para o utilizador ser auxiliado numa utilizao e gesto eficiente do
seu email.
O presente documento enquadra-se na atividade Linha investigao 1: Processos estatsticos
descritivos e inferenciais do projeto SMART Mail, constituindo resultado documental das tarefas
Investigao do estado da arte sobre a linha de investigao de processos estatsticos
descritivos, Investigao do estado da arte sobre a linha de investigao de processos
estatsticos inferenciais e Experimentao e teste de abordagens atuais de processos estatsticos
declarativos e inferenciais.
Utilizadores habituais de email deparam-se frequentemente com situaes em que os seus emails,
por si s, oferecem pouca informao. Sistemas de gesto de email por vezes oferecem dados
adicionais mas estes tendem a evidenciar informao superficial ou imediatamente aparente.
Atravs de determinados clculos estatsticos, torna-se possvel encontrar relaes e concluses
que de outro modo no seriam visveis, encontrando-se implcita (i) nas mensagens, (ii)
intervenientes, (iii) organizaes, (iv) eixo temporal e / ou (v) combinao destas variveis
envolvidas no envio de emails. Includo no mbito do projeto SMART Mail, este documento vai
apresentar dois tipos de estatsticas (descritiva e inferencial), os conceitos necessrios sua
compreenso e exemplos de aplicaes destes no domnio do email, de passvel futura aplicao
no decurso das atividades de Conceo e Desenvolvimento do prottipo SMART Mail.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Processos Estatsticos Descritivos


Definio
A estatstica descritiva o domnio da matemtica que permite descrever e resumir dados atravs
de parmetros para obter tendncias superficiais. No entanto, superficiais no implica que os
resultados obtidos no sejam valiosos. Quando deparado com grandes quantidades de dados em
bruto, um estaticista pode usar tcnicas e processos para ordenar e classific-los, permitindo a
extrao de informao que de outro modo no seria fcil, ou de todo possvel, obter. [1] [2]

Construtores Matemticos
Para estudar a estatstica de dados, necessrio analisar, compreender e classificar a natureza dos
dados. Com esse fim, so utilizadas variveis. Uma varivel representa um nico aspeto de um
conjunto de dados e necessria para transformar conceitos, por vezes abstratos ou difusos, em
valores discretos e fceis de estudar. Por exemplo, pode-se definir a varivel Hora de envio de
email para estabelecer a que horas um contacto envia emails a um recipiente.

Anlise Univariada
A base da estatstica descritiva baseia-se em estudar apenas uma varivel. Uma varivel pode ser
estudada de forma a conhecer os seus trs aspetos principais: a distribuio, a tendncia central e
a disperso dos dados.
Distribuio
A distribuio consiste na lista de pontos de dados ou categorias de uma varivel. Continuando o
exemplo que foi iniciado na introduo desta seco, podemos tomar a nossa varivel Hora de
envio de email e criar uma categoria por cada hora do dia. Assim, torna-se possvel associar cada
email recebido a uma hora e ficar a conhecer em que perodos de tempo um certo contacto envia
mais ou menos emails. A Figura 1 mostra um grfico de barras duplo. O eixo das abcissas (X)
representa as horas do dia e o eixo das ordenadas (Y) refere-se ao volume de emails recebidos. As
barras com um tom mais claro mostram os emails recebidos de todos os contactos e as barras
mais escuras referem-se aos emails recebidos de um contacto especfico. A partir deste grfico
podemos ver como os dados encontram-se dispersos, ou por outras palavras, o volume de emails
recebidos a cada hora.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Figura 1 Comparao da disperso diria de emails de um contacto com todos os emails recebidos

Tendncia Central
Quando se estudam dados, frequente querer conhecer onde se situa o centro dos dados.
Todavia, no existe um nico centro mas sim trs: a moda, a mediana e a mdia. A Figura 1 ser
usada para melhor dar a conhecer cada uma das medidas. A moda a mais simples das trs,
referindo-se apenas ao valor / categoria com maior frequncia. Na Figura 1 esta seria a categoria
das 16h, quando o maior nmero de emails foi recebido.
A mediana refere-se ao valor / categoria que tem um nmero igual de outros valores / categorias,
respetivamente, de cada um dos seus lados, ou seja, o valor / categoria que esteja exatamente no
meio do conjunto ordenado de todos os valores. No caso de o conjunto de dados ter um nmero
par de elementos, levando a que existam dois elementos vlidos, a mediana ser o resultado do
clculo da mdia dos dois elementos.
O clculo da mdia no utilizado s nessas circunstncias, contudo. A mdia frequentemente a
mais valiosa das trs medidas de tendncia central j que esta permite conhecer o conjunto de
dados com um nico nmero. Ao somar a frequncia de todos os valores / categorias e dividir a
soma obtida pelo tamanho do conjunto de dados obtm-se um valor que representa todos os
dados. Esta medida valiosa porque permite conhecer factos como quantos emails se podem
esperar a uma certa hora ou aumentos / diminuies na frequncia de trocas de emails com um
contacto ao longo do tempo, por exemplo. No entanto, a mdia pode ser fortemente influenciada
por outliers, valores drasticamente diferentes da maioria dos outros valores, o que leva a que
mdias calculadas no representem com preciso a maioria dos dados, ou os dados relevantes. H
que notar que um outlier no inerentemente disruptivo e pode conter informao
extremamente importante, o que significa que estes no devem ser automaticamente ignorados
ou rejeitados. mais importante que se entenda o significado de outliers para que no haja perdas
de informao.
No exemplo corrente, utilizando a Figura 1 como suporte, temos o volume de emails recebidos de
um contacto especfico e a soma dos emails de todos os contactos. Ao calcular a mdia de cada
um destes conjuntos de dados podemos comparar os volumes de emails de forma mais direta e
2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

objetiva e saber empiricamente por quantos emails um contacto responsvel (envio e receo).
Alternativamente, ao dividir o volume de emails de cada hora pelo nmero de dias decorridos
num intervalo temporal, pode-se descobrir a mdia de emails trocados num determinado perodo
de tempo. Se for mantido um registo destas mdias torna-se possvel quantificar crescimentos e
diminuies de trfego de um contacto.
Disperso
As medidas de disperso contemplam as variaes das frequncias registadas e no as frequncias
em si. A amplitude dos dados por vezes valiosa j que permite fazer comparaes entre valores /
categorias ou at conjuntos de dados diferentes. Para melhor exemplificar a amplitude pode-se
definir uma varivel Nmero de emails recebidos por dia. Ao observar dois contactos, um
utilizador de email pode determinar o comportamento de cada um e adaptar a sua forma de
interao / comunicao.
Neste exemplo, a amplitude de emails recebidos do primeiro contacto reduzida e, por isso, o
utilizador espera receber sempre um nmero semelhante de emails todos os dias e planeia o seu
dia de acordo com essa informao. O segundo contacto, por contraste, pode passar dias sem
enviar emails mas tambm capaz de enviar grandes quantidades num s dia e assim a sua
amplitude no mbito desta varivel muito alta e o utilizador de email pode preparar a sua caixa
de correio para filtrar automaticamente os emails enviados por esse contacto no caso de ser
recebido um grande volume de mensagens. Devido ao facto da amplitude ser extremamente
sensvel a outliers, este clculo tem de ser executado com cuidado para que o resultado seja vlido
e minimamente interessante para o contexto a que pertence.
A medida de disperso mais comum, no entanto, o desvio padro. Para falar desta medida
tambm se deve falar da varincia, j que o desvio padro se obtm de calcular a raiz quadrada da
varincia. [3]

Figura 2 - Frmula da Varincia

A Figura 2 contm a frmula para calcular a varincia. A frmula consiste em calcular uma mdia
com os quadrados das diferenas de cada valor e a mdia dos valores. Ao calcular a raiz quadrada
do valor obtido obtm-se o desvio padro, um valor que permite estabelecer intervalos ou
subgrupos de dados. Em distribuies de dados (aproximadamente) normais, em que os dados
esto distribudos de forma (aproximadamente) simtrica, criam-se intervalos partindo da mdia e
subtraindo ou somando o desvio padro, uma ou mais vezes, para obter os limites mnimos e
mximos, respetivamente. Continuando com distribuies de dados normais, 68% dos dados est
2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

contido no intervalo de um desvio padro e 99.7% dos dados est no intervalo entre trs desvios
padres, [2] [4] [5] como ilustrado na Figura 3.

Figura 3 - A regra de 68-95-99.7

Anlise Bivariada
Por vezes torna-se necessrio estudar a relao entre duas variveis e nesses casos as medidas
apresentadas na seco anterior no so suficientes. Para estudar relaes de variveis utilizam-se
a correlao e a covarincia, muitas vezes apresentadas graficamente de modo a entender
intuitivamente as diferenas gerais, tipicamente atravs de scatterplots ou tabelas de distribuio
de probabilidade conjunta. Os resultados deste tipo de anlises permitem encontrar ligaes entre
os dados mas importante salientar que a correlao no implica causalidade, ou seja, o facto de
existir uma relao no implica que uma das variveis dependa da outra.
Concretamente, se numa caixa de email hipottica as variveis tempo de resposta e qualidade
de resposta mostrarem uma correlao positiva, ou seja, se respostas mais rpidas tendem a ser
mais bem compostas, no se pode assumir que respostas rpidas sejam mais bem compostas.
Antes de se poder calcular a correlao, no entanto, necessrio calcular a covarincia. Existem
algumas variaes mas a Figura 4 contem a frmula base que consiste em calcular a mdia dos
produtos da diferena entre cada valor de uma varivel e da mdia dessa mesma varivel.
semelhante ao clculo da varincia com a diferena de o produto ser entre os dados de ambas as
variveis em vez de com os dados da mesma varivel (ou o quadrado da diferena dos valores e da
mdia).

Figura 4 - Frmula base da Covarincia

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

O clculo de correlao de Pearson abaixo utiliza a covarincia calculada e divide-a pelo produto
dos desvios padro de cada varivel, ou seja, o resultado da varincia normalizado para tornar os
resultados mais simples de analisar e comparar.

Figura 5 - Formula de Correlao de Pearson

Ambos os clculos indicam a existncia ou ausncia de ligao entre as duas variveis mas a
correlao tende a ser mais usada j que os resultados da covarincia no so facilmente
entendidos, de forma anloga preferncia de utilizao do desvio padro sobre a utilizao da
varincia.
Tambm importante notar que existem clculos de correlao que no usam a frmula de
Pearson. Por exemplo, um teste de correlao inferencial baseia-se no conceito de distribuio
condicional.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Processos Estatsticos Inferenciais


Definio
A estatstica inferencial trata de permitir conhecer o mesmo tipo de informao que a estatstica
descritiva d a conhecer mas em contextos em que no temos toda a informao ou a garantia da
qualidade dos dados. Quando s se possui uma poro da totalidade dos dados que se pretendem
estudar, torna-se necessrio formular hipteses consoante essa poro, ou amostra, e extrapolar
para a totalidade dos dados, ou populao. Aplicar a uma populao os resultados obtidos de
estudar uma amostra acarreta algum risco, valores aproximados e uma quantidade no nula de
erro, o que significa que os resultados obtidos com estes processos no sero idnticos aos reais.
Contudo, com alguma margem de tolerncia de variaes como estas, os resultados obtidos com
estes processos so valiosos e podem revelar informao importante, informao no contida nos
dados iniciais mas nas relaes entre si [1] [2]

Construtores Matemticos
Na seco de construtores matemticos dos processos de estatstica descritiva, os aspetos
essenciais foram mencionados e explicados de forma a dar a entender o tipo de resultados que se
podem obter e como estes podem ser interpretados. Todos os clculos feitos nesse domnio tm
como pressuposto que o conjunto de dados a ser estudado contm a totalidade dos dados
relevantes ao estudo, ou seja, que um estaticista que estude o problema tenha acesso a todos os
dados do estudo e no apenas a uma subseco destes. A estatstica inferencial um domnio da
estatstica que se aplica aos casos onde a estatstica descritiva no se pode aplicar, por outras
palavras, a casos onde s existe acesso a uma amostra da populao.
Em casos como estes, como o acesso aos dados limitado, os clculos tm acesso somente aos
dados da amostra e posteriormente necessrio extrapolar resultados que sejam aproximados
dos valores reais da populao, ou seja, os dados da populao so inferidos. Para que estes
clculos sejam possveis, dado o grau de incerteza nos clculos, necessrio recorrer a intervalos
de confiana. Estes intervalos so definidos por um conjunto de valores candidatos e por um nvel
de confiana, uma percentagem tipicamente igual a 90%, 95% ou 99%, que indica a confiana de o
valor alvo estar dentro do intervalo. importante realar que a confiana nunca chega a 100%, o
que significa que um intervalo de confiana poder no conter o valor verdadeiro do parmetro
em questo num dado problema.
A inferncia estatstica engloba duas principais tarefas: estimativas e testes de hiptese. [3] [6]
Ambas partilham objetivos, servindo dois propsitos diferentes, e ambas so valiosas em vrios
2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

domnios. Em particular no domnio do email, estas tcnicas podem ser utilizadas para inferir
relaes e encontrar informao que de outra forma no seria evidente. Por exemplo, ao longo de
um perodo de tempo um utilizador de email pode trocar mensagens com dois contactos
importantes. Com alguns clculos possvel determinar se as trocas de mensagens com o primeiro
contacto influenciam a frequncia de envio de mensagens para o segundo contacto.
Como brevemente mencionado na seco de Anlise Bivariada dos Processos Estatsticos
Descritivos, a correlao tambm pode ser calculada no contexto da estatstica inferencial. A
informao crucial da correlao dada na seco mencionada tambm se aplica neste contexto,
por isso a correlao no ser explorada com muita profundidade nesta seco.

Estimao
Quando a lidar com amostras, no possvel obter resultados para a populao diretamente a
partir dos dados da amostra. Tal como referido anteriormente, feita uma extrapolao para ter
informao sobre a populao mas este processo pode resultar em resultados incorretos. Assim,
so utilizados estimadores para obter valores prximos dos corretos, ou estimativas, e conseguir
completar quaisquer clculos necessrios.
Um estimador normalmente representado com o caracter do parmetro desejado marcado com
um acento circunflexo, tal como , e pode ser tanto pontual ou intervalar, ou seja, pode oferecer
um nico valor ou um intervalo de valores, na forma de um intervalo de confiana.
Nem todos os emails trocados entre um utilizador e um contacto podem estar acessveis num
determinado momento. medida que o tempo passa emails podem ser apagados e diferentes
contas de email podem ser utilizadas, o que leva a que nem todas as mensagens possam ser
acedidas para ter o conjunto completo de dados. Todas essas mensagens tiveram um efeito na
relao das duas pessoas, e potencialmente noutras relaes, e seria vantajoso poder contar com
a totalidade das mensagens, apesar de algumas estarem indisponveis. Recuperar esse tipo de
informao no uma opo vlida mas deduzir alguma da informao de um utilizador permite
executar clculos que produzam resultados relevantes.

Teste de Hiptese
Quando necessrio conhecer um aspeto da populao, por vezes informao que nem est
diretamente acessvel como a mdia ou o desvio padro, um teste de hiptese apresenta-se como
apropriado. [7] Um teste de hiptese comea com um ambiente, e.g. como a caixa de correio de
um CEO onde cada contacto tem um certo grau de importncia, e com uma pergunta, tal como O
contacto mais importante o que envia mais emails?.
Para ter uma resposta a essa pergunta formulada uma ideia para ser testada, neste caso seria
Um contacto importante se enviar 10 mensagens por dia.. Posteriormente proposta a
hiptese nula e a hiptese alternativa. A hiptese nula assume o oposto da ideia enquanto a
2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

hiptese alternativa prope uma alternativa, esta sendo a prpria ideia. Com ambas as hipteses
formuladas, assume-se que a hiptese nula verdadeira e adota-se uma estratgia de reduo ao
absurdo. Se a hiptese nula for rejeitada, a ideia inicial aceite e dado um resultado que
consiste de um intervalo de confiana que indica a hiptese aceite e o grau de confiana
associado.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Estado da Arte
Na rea de estatstica descritiva no existe nenhuma descoberta ou teoria recente que altere a
forma em como se descrevem e analisam conjuntos de dados de forma superficial. As
metodologias no tm sofrido alteraes e continuam a ser pilares essenciais em investigaes e
anlises de diversos domnios, tal como em anlises de desempenho em vrios desportos,
comparaes de estado de sade de pacientes, estudo de hbitos sociais / culturais, entre outros.
Na rea da estatstica inferencial, no entanto, existem bastantes esforos de estaticistas para
expandir o conjunto de ferramentas de inferncia estatstica. Advances in Statistics [8] um
journal que publica artigos de investigao de qualquer rea da estatstica. Neste journal
possvel encontrar artigos recentes (desde 2014) com algumas das abordagens mais inovadoras no
domnio da estatstica.
Especificamente, Zhenmin Chen e Tieyong Hu desenvolveram um teste [9] que oferece melhores
resultados do que o teste de KolmogorovSmirnov (o teste mais usado at hoje para comparar
duas amostras de dados) em distribuies de dados em V ou para amostras pequenas.
No entanto, muitos aspetos mantm-se constantes. No tm sido feitos muitos desenvolvimentos
matemticos na base da estatstica descritiva mas usos da estatstica descritiva tm vindo a
aumentar em nmero. [10] Nomeadamente, no tratamento de pacientes de cancro nos Estados
Unidos da Amrica, usos inovadores de estatsticas auxiliam na escolha de abordagens ao nvel da
personalizao dos tratamentos deste grave problema de sade. [11]
Em 2013 foi levado a cabo o International Year of Statistics, um evento cujo propsito era
promover a importncia do clculo estatstico a outras comunidades, tal como outras
comunidades cientficas, organizaes e governos. [12] Esse evento levou criao do World of
Statistics [13], uma rede global de organizaes que visa continuar os esforos do evento de 2013
e continuamente investir no crescimento da estatstica como rea de estudo e emprego, orientada
especialmente para pessoas mais novas.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Aplicabilidade ao domnio do email


Aplicabilidade da estatstica descritiva
Apesar de j terem sido utilizados exemplos relativos a email neste documento, nesta seco vo
ser discutidas com mais detalhe algumas possveis aplicaes mais concretas das tcnicas
mencionadas anteriormente. Cada uma destas aplicaes, por si s, no suficiente para
classificar corretamente os emails recebidos por um utilizador, mas em conjunto permitem
determinar quo importante um email e mostrar a um utilizador de email quais mensagens
requerem mais ateno em cada momento.

Mecanismos de sugesto dos contactos mais relevantes


Decidir qual o mais valioso de dois contactos pode ser uma tarefa difcil e dispendiosa ao tentar
comparar os atributos de cada, dificuldade que aumenta drasticamente quando se deseja
comparar dez, cinquenta ou cem contactos. Como referido na definio de estatstica descritiva, o
propsito deste tipo de estatstica descrever e resumir grandes quantidades de dados.
Certos elementos de um contacto, por si s, podem ser resumidos de forma simples, tal como o
tempo mdio de resposta. Um contacto com que um utilizador tenha conversas de hora a hora
potencialmente um contacto mais importante do que outro cujas conversas podem ter pausas de
dias ou semanas. Outro elemento que pode ser resumido de forma simples o intervalo de horas
de contacto. Um contacto que envie a maioria dos seus emails depois do horrio normal de
trabalho pode ter requisitos diferentes de outros contactos e necessitar de respostas cleres,
tornando-o num contacto de alta prioridade.
Com esses e outros fatores considerados, possvel transformar todos os dados de um contacto
num nico nmero que resume a sua relevncia e a forma em como emails por este enviados
devem ser tratados. Ao realar emails enviados por contactos com um alto nvel de importncia,
um utilizador pode rpida e facilmente determinar quais os emails com maior probabilidade de
serem importantes. Permitir a um utilizador distinguir um pedido urgente de um gerente e uma
newsletter mensal de um servio que utiliza, imediatamente e sem confuso, pode ajud-lo a
poupar muito tempo a longo prazo.

Taxas de distribuio de email


medida que progressivamente mais emails so recebidos, padres comeam a surgir. Estes
padres permitem determinar quais os intervalos de tempo onde mais provvel que novos
emails cheguem. Assim possvel criar expectativas sobre quando novos emails podero chegar e
delinear perodos onde se espera que novos emails sejam, ou no, recebidos.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Assim, emails cuja hora de receo seja muito diferente das mdias esperadas podem-se
considerar importantes e receber exposio adicional de modo a que no sejam perdidos no
conjunto de todos os emails recebidos diariamente.

Deteo de relevncia de conversaes


O grau de relevncia de uma conversa depende da frequncia e volume de emails trocados e pode
ser medido com o nmero mdio de emails trocados por semana. medida que progressivamente
mais emails so adicionados a uma conversa num perodo de tempo, mais ativa esta se torna.
Consequentemente, emails recebidos pertencentes a uma conversa de email muito ativa podemse considerar muito importantes.
Isto significa que emails pertencentes a uma conversa importante podem ser realados de forma a
que um utilizador de email nunca perca informao crtica relativamente a um tpico relevante
atualmente. De forma relacionada, novos emails associados a uma conversa inativa podem
confundir um utilizador que pode nem se recordar do tema da conversao. A seria vantajoso
oferecer notas informativas ao utilizador para contextualizar o email e permitir ao utilizador
rapidamente tomar uma deciso sobre como lidar com o novo email.

Aplicabilidade da estatstica inferencial


A estatstica inferencial usada atualmente em inmeros domnios, projetos e tarefas, devido s
dedues que permite tirar. No domnio do email possvel conceptualizar algumas formas de
utilizao de estatstica inferencial para auxiliar com a gesto inteligente de emails.
Este tipo de clculos incerto por natureza, at certo ponto. Isto significa que existe um risco
inerente de quaisquer resultados obtidos com processos estatsticos inferenciais serem incorretos.
Por isso, quaisquer sistemas que incluam estatstica inferencial nos seus processos de tomadas de
deciso devem ser construdos de forma a tolerar erros e de aprender com o tempo de modo a
melhorar.

Classificao de organizaes
Na seco dos testes de hiptese, a determinao da importncia de um contacto foi o foco do
exemplo dado. Nesse exemplo falou-se de um teste de hiptese que tentava encontrar uma
ligao entre tempo de resposta e importncia do contacto. Atravs de testes como esse,
dedues sobre diversos aspetos de um contacto podem ser tiradas. O mesmo se pode fazer com
organizaes.
O valor de uma organizao pode depender de vrios fatores, tal como o nmero de conversas
ativas, o tempo decorrido desde o primeiro contacto e o valor dos contactos associados. Se o valor
de uma organizao fosse simplesmente igual soma do valor dos contactos associados,

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

organizaes compostas por muitos contactos de pouco valor poderiam potencialmente tornar-se
mais valiosas do que organizaes com um pequeno nmero de contactos valiosos.
Classificar uma organizao requer testar as suas propriedades, e as propriedades dos seus
membros, e comparar os resultados recebidos com os obtidos de outras organizaes. Isto
significa aplicar testes de hiptese e analisar correlaes. O mesmo teste de hiptese aplicado a
duas organizaes de valor aparentemente semelhante, mas amostras de dados
significativamente diferentes, pode levar a resultados diferentes, ou seja, a concluses e
classificaes diferentes. E mesmo que os resultados sejam semelhantes, pode existir suficiente
nmero de diferenas para que as classificaes atribudas no devam ser iguais, o que significa
que a correlao no pode ser ignorada.
Declarar uma organizao como muito ou pouco valiosa uma tarefa complexa, especialmente
porque o valor pode mudar medida que o tempo passa. Simultaneamente, caso um utilizador de
email adicione um novo contacto e o associe a uma organizao previamente conhecida, o grau de
importncia desse contacto pode ser automaticamente ajustado de modo a refletir a importncia
da organizao a que pertence.

Deteo de eventos
Num ambiente empresarial, um gestor de projetos tem habitualmente de lidar com problemas e
questes que surgem medida que diferentes equipas desenvolvem o seu trabalho e comunicam
entre si. No entanto, de entre as centenas de emails trocados que podem incluir o gestor,
possvel que apenas um pequeno nmero seja realmente importante e exija toda sua ateno. Por
exemplo, no caso de surgir um evento que requeira uma soluo de forma urgente, emails que
mencionem esse novo problema deveriam ser realados.
Diferenciar os emails importantes dos restantes requer anlise de vrios dados tal como o prprio
corpo do email, os contactos associados e a conversa a que pertence. A frequncia com que certas
palavras surgem entre vrias mensagens ou a existncia de palavras chave pr determinadas
podem ser provas da existncia de um evento importante. medida que progressivamente mais
provas so adquiridas, mais robusta se torna a deciso de alertar ou no o utilizador da existncia
de algum evento que requer a sua ateno.

Monitorizao e gesto de contactos


Contactos duplicados so um problema comum com caixas de email. Com o tempo, um utilizador
tende a acumular muitos diferentes contactos de email, e por vezes vrios contactos podem-se
referir mesma pessoa. Isto leva a que haja desorganizao e informao desnecessariamente
espalhada ou repetida. Uma sequncia de testes de hiptese podem revelar contactos
potencialmente duplicados e sugerir a um utilizador que sejam feitas alteraes / aes de
convergncia.
2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Com os mesmos testes possvel tambm sugerir grupos de contactos. Quando vrios contactos
mostram ter atributos idnticos ou semelhantes, pode ser sugerido ao utilizador que seja criado
um grupo que os inclua. Grupos podem ser to simples como membros da mesma famlia ou co
fundadores de uma empresa. Ao agrupar contactos desta forma, um utilizador pode mais
facilmente reconhecer contactos, mais facilmente enviar emails para mltiplos recipientes ou
manter registo da composio de equipas dinmicas, como os colaboradores associados a um
novo projeto dentro da sua empresa.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Adequao ao negcio
Os benefcios de clculo estatstico no funcionamento interno de empresas j foram mencionados
neste documento. Mas com acesso a estes clculos, empresas podem melhorar a sua
comunicao externa tambm, seja ela com empresas ou consumidores.

Comunicao com empresas


Uma boa comunicao entre empresas pode ser difcil de manter, especialmente quando
consideradas todas as peas mveis numa nica empresa. Equipas dentro de uma mesma
empresa podem ser criadas ou dissolvidas, colaboradores podem mudar de equipa, a gesto pode
mudar e at as prioridades da empresa podem sofrer alteraes. Outras empresas podem no
acompanhar as mudanas que acontecem na empresa em questo e podem desejar mudar a
forma como interagem com esta.
Assim, um servio que automatize parte da classificao de outras empresas, e de contactos que a
pertenam, torna-se valioso por libertar utilizadores de email de ter de atribuir muito tempo a
gerir contactos e emails. Deste modo, os colaboradores de cada uma das empresas envolvidas
numa transao de negcios podem-se concentrar em garantir que o trabalho que realizam bem
executado e no em gerir a sua caixa de correio.

Comunicao com consumidores


Uma empresa que lide com consumidores diretamente tende a desejar reconhecer quais os seus
clientes mais valiosos, seja em que domnio for. Clientes recorrentes, com uma subscrio a um
servio ou potenciais novos clientes tm valores diferentes e isto significa que podero pedir ou
merecer tratamento especializado ou prioritrio. As tcnicas mencionadas ao longo deste
documento podem ser usadas para rpida e facilmente distinguir os diferentes tipos de clientes.
A seco de apoio tcnico de uma empresa de telecomunicaes, por exemplo, poder decidir
atribuir um valor de relevncia a diferentes clientes e encaminhar pedidos de clientes mais
importantes para tcnicos de apoio mais experientes de forma a aumentar a probabilidade de o
cliente terminar o pedido de apoio satisfeito. Novos clientes podem ser classificados como tal de
modo a que qualquer tcnico que os atenda assim o saiba e se prepare para assistir de forma
apropriada.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

Referncias
[1] Descriptive and Inferential Statistics, Laerd Statistics, [Online]. Available:
https://statistics.laerd.com/statistical-guides/descriptive-inferential-statistics.php.
[2] W. M. Trochim, Descriptive Statistics, Research Methods Knowledge Base, 2006. [Online].
Available: http://www.socialresearchmethods.net/kb/statdesc.php.
[3] P. L. Ferreira, Estatstica Descritiva e Inferencial, Faculdade de Economia da Universidade de
Coimbra,
2005.
[Online].
Available:
https://estudogeral.sib.uc.pt/bitstream/10316/9961/1/AP200501.pdf.
[4] B. Narasimhan, The Normal Distribution, Department of Statistics of Stanford University, 22
07
1996.
[Online].
Available:
http://statweb.stanford.edu/~naras/jsm/NormalDensity/NormalDensity.html.
[5] The 68-95-99.7 Rule For Normal Distributions, State University of New York, [Online].
Available: http://www.oswego.edu/~srp/stats/6895997.htm.
[6] D.
Lane,
Inferential
Statistics,
http://davidmlane.com/hyperstat/A29136.html.

[Online].

Available:

[7] S. Khan, Hypothesis testing and p-values, Khan Academy, 2 11 2010. [Online]. Available:
https://www.khanacademy.org/math/probability/statistics-inferential/hypothesistesting/v/hypothesis-testing-and-p-values.
[8] Advances
in
Statistics,
Hindawi,
http://www.hindawi.com/journals/as/contents/.

[Online].

Available:

[9] T. H. Zhenmin Chen, Statistical Test for Bivariate Uniformity, Hindawi, 19 10 2014. [Online].
Available: http://www.hindawi.com/journals/as/2014/740831/.
[10] ABC Statistics, [Online]. Available: http://studymore.org.uk/glonumst.htm.
[11] W. N. R. Marie Davidian, Strength in Numbers: How Statistics Are Driving Personalized
Cancer
Care,
North
Carolina
State
University,
[Online].
Available:
http://www.futureofpersonalhealth.com/prevention-and-treatment/strength-in-numbershow-statistics-are-driving-personalized-cancer-care.

2/2
Projeto em curso com o apoio de:

SmartMail| Entidade Promotora:

Parceiros:

[12] 2013: Social Science History: Time line for the history of society, science and social science,
[Online]. Available: http://studymore.org.uk/sshtim.htm#2013.
[13] "The World of Statistics Homepage," The World of Statistics, [Online]. Available:
http://www.worldofstatistics.org/.
[14] New England Symposium on Statistics in Sports, NESSIS, 2012. [Online]. Available:
http://www.nessis.org/index.html.

2/2
Projeto em curso com o apoio de: