Você está na página 1de 54

DB3BCM0506-15SA Comunicação e Redes

Créditos (T-P-I): (3 - 0 - 4)
Recomendações:
Processamento da Informação

Aula 6:
Modelos de redes e processamento de linguagem natural

Profa.Dra.Margarethe Born Steinberger-Elias


Centro de Engenharia, Modelagem e Ciências Sociais Aplicadas (CECS)

UFABC
PLANO DO TRABALHO FINAL
• É um roteiro resumido do Trabalho Final
• Apresentação oral de slides em 5 minutos na quinta-feira 08/08
• Falará apenas 1 dos membros do grupo; os demais membros o acompanham e sua presença é
obrigatória no tablado diante da classe.
• Slide 1 – Logo da UFABC, nome da disciplina, titulo, nome dos alunos que integram o grupo
• Slide 2 - Área e tema do Trabalho Final e qual o subtema pretendido. Por exemplo, a área é Ciência
de Redes aplicada ao campo da Biologia. O tema é a disseminação de epidemias. O subtema é a
disseminação de febre amarela no Brasil em 2018.
• Slide 3 - Apresentar um resumo de 140 palavras sobre o texto básico do grupo e informar quem o
apresentará;
• Slide 4 - indicar quais são os textos complementares* que foram escolhidos, apresentar um resumo
de 140 palavras sobre cada um e informar qual aluno ficará responsável por cada texto. Atenção!
Trazer todos os textos impressos e deixá-los com o Prof. para consulta antes da apresentação.
• Slide 5 – informar qual é o problema e qual hipótese serão investigados. Por exemplo, o problema é:
qual modelo de rede explica melhor a disseminação da febre amarela no Brasil em 2018? A hipótese é
e que é o modelo de.... porque .... Esta hipótese pode ser verificada através de um mapeamento das
zonas florestais onde apareceram macacos mortos.
• Slide 6 – Materiais e métodos: como os dados sobre macacos mortos puderam ser obtidos? Quem
detinha essa informação? A morte dos macacos foi suficiente para comprovar a presença da doença?
Etc.
• O Plano de Trabalho deverá ser entregue impresso no dia 08/08. A impressão pode ser feita
diretamente a partir dos slides apresentados. Um upload dos slides da apresentação deve ser feito no
escaninho de todos os membros do grupo no TIDIA com o título “Plano_de_Trabalho_Final_
Grupo_xx”
*TEXTOS COMPLEMENTARES são necessariamente artigos científicos, e não artigos de divlgação!!!
Roteiro da Aula 6
• Linguagem natural como sistema complexo
• Linguagem natural como fenômeno
probabilístico
Linguagem natural como sistema complexo:
que palavra usar?

• Enchente?Inundação?
• Vazamento?Transborda
mento?
• Vendaval? Furacão?
Tufão?
Ciclone?Tornado?
• Terremoto? Tremor de
terra? Abalo sísmico?
Tsunami?

Problemas na produção Problemas na recepção


Dada a ocorrência da palavra x1, qual a
probabilidade de ocorrer a palavra x2?
Cadeias de Markov ou Exemplos
regras de composição?
A
Artigo + Nome escolha
Nome + (Prep + Nome) de Engenharia
Nome + Verbo ajuda
Verbo + Advérbio bastante
Profa.Dra.Margarethe Born Steinberger-Elias
Complexidade no controle de variáveis de
comportamento dos interlocutores
• A linguagem é um • A própria linguagem
sistema de cria experiências
categorização de nossas • Uma mesma frase gera
experiências reações diversas
• É + complicado do que: • Mal-entendidos
• Input - experiência • Falhas de comunicação
• Processamento • Equívocos
• Output - linguagem

Profa.Dra.Margarethe Born Steinberger-Elias


CECS/UFABC
Desambiguação
Exemplo: João pôs a torta no forno

João colocou a torta no forno

João assou a torta

João aqueceu a torta

João guardou a torta no forno


Profa.Dra.Margarethe Born Steinberger -
CECS/ UFABC
Linguagem natural é um fenômeno
probabilístico
• Vivemos em ambientes de conhecimento inexato, onde precisamos tomar
decisões

• Linguagem é um sistema complexo de conhecimento

• Processos cognitivos envolvidos na linguagem lidam com alto grau de


incerteza

• Como interpretar expressões fuzzy? Ex. alto, baixo, grande, pequeno, etc.

• Uso de métodos probabilísticos para auxiliar na redução de incerteza

• Palavras amigas: mesa-cadeira-sofá- abajur-tapete-....

• O vôo parte de ....... às...... e chega em ........ 2 horas depois


Profa.Dra.Margarethe Born Steinberger-Elias
CECS/UFABC
Cruzamento de grupos de variáveis linguísticas
• Terminologias específicas de
domínios de saber ex. Biologia, Física,
História… (termos técnicos)
• Grupos de estratos sociais (por
Sistemas de busca do
idade, sexo, grau de escolaridade, tipo Google não são
etc.)
• Grupos de registros ex. mais formal capazes de
ou mais coloquial
• Grupos de tipos de discurso ex.
identificar
acadêmico-científico, jornalístico,
corporativo… nada disso!
• Grupos de gêneros de textos ex.
notícia, artigo, crônica…
• Grupos de estilos de comunicação
ex. informativo, opinativo,
argumentativo…
Profa.Dra.Margarethe Born Steinberger-Elias
CECS/UFABC
Distribuição das expressões segundo contextos
mais prováveis de uso pode ajudar
• Um sistema de PLN eficiente • Um sistema de PLN eficiente
deve ser capaz de avaliar deve ser capaz de avaliar
opções para: opções para:

• Desambiguar sentidos • Reconhecer metáforas


• Categorizar palavras • Identificar humor e ironia
• Atribuir função hierárquica • Reconhecer efeitos
(sintática) emocionais da escolha de
• Determinar o escopo expressões
semântico • Aprender de forma automática
as opções padronizadas e as
preferenciais de léxico e
estrutura em cada contexto

Profa.Dra.Margarethe Born Steinberger-Elias


CECS/UFABC
Profa.Dra.Margarethe Born Steinberger-Elias CECS/UFABC
NLP através de métodos estatísticos
• Espaços de probabilidade • Teoria da informação
• Variáveis aleatórias • Entropia
• Variáveis dependentes • Informação mútua
• Desvio padrão • Ruído
• Distribuições • Mensuração da qualidade
de um modelo através de
medidas de entropia
• Um bom modelo de língua
natural deve ser capaz de
captar sua estrutura
(descrever e predizer)
• Gerar todas as sentenças de
uma língua e apenas essas

Profa.Dra.Margarethe Born Steinberger-


Elias CECS/UFABC
Vamos contar as palavras do texto 1 abaixo:
to be or not to be
T1 T2 Tn
As palavras de um texto
podem ser analisadas
TO 2

 Por sua frequência


BE 2

OR 1
 Por sua posição num
NOT 1 ranking de frequência
das frequências
collocations: quais palavras andam
preferencialmente juntas?
• Collocations são palavras que costumam andar
• Em sistemas como Google:
juntas Ex. Ponto de ônibus

• Busca por matching


• As collocations são unidades multi-palavra
(multiword ) que têm significado diferente do
• Busca por relação semântica
das palavras individuais que as compõem

• Problemas para identificar:


- Sinônimos
• Conhecimento collocacioonal permite:
- Palavras + frequentes em um
- comparar o significado de uma palavra usada domínio semântico (moda,
em contextos diferentes gastronomia, etc.)
- avaliar mudanças de significado com o tempo - quando uma palavra tem sentido
autônomo ou está numa collocation
Ex. Onda verde, politicamente correto

Profa.Dra.Margarethe Born Steinberger-Elias CECS/UFABC


Quais são as palavras mais comuns em um texto?
Veja o livro do escritor Mark Twain intitulado “Tom Sawyer”

Profa.Dra.Margarethe Born Steinberger-Elias CECS/UFABC


TYPES e TOKENS em Tom Swayer:
71.370 tokens e 8018 types (estilo coloquial)

• Frequência média de cada


type: 8.9
• Frequência das
frequências:
- ranking do número de
palavras que ocorrem só
1 vez, 2, 3....>100
- 49.8% dos types só
ocorrem 1 vez
- acima de 90% ocorrem
10 vezes ou menos

Profa.Dra.Margarethe Born Steinberger-Elias


CECS/UFABC
Stopwords e PoS

Profa.Dra.Margarethe Born Steinberger-Elias CECS/UFABC


Collocations e PoS

Profa.Dra.Margarethe Born Steinberger-


Elias CECS/UFABC
Lei de Zipf
• Matemático George Kingsley Zipf publicou
Behavior and the Principle of Least Effort (1949)

• Lei baseada no Princípio do Esforço Mínimo

• Relação entre a frequência de uma palavra f e a sua posição no


ranking de frequência .r (sua frequência da frequência)

• Há uma constante k tal que f .r = k

• Redes de palavras em línguas naturais tendem a comportar-se


segundo um modelo de rede sem escalas (lei de potência)

Profa.Dra.Margarethe Born Steinberger-Elias


CECS/UFABC
Profa.Dra.Margarethe Born Steinberger-Elias
CECS/UFABC
Profa.Dra.Margarethe Born Steinberger-Elias CECS/UFABC
Tarefa 3 para dia 9/7 (individual): fazer upload no TIDIA até 23:59 em
ComRed2019.2
Baixe o texto completo do Prof. Jorge Buescu da Faculdade de Ciencias da Univ. de Lisboa no link:
http://tutorado.unidades.tecnico.ulisboa.pt/files/sites/40/Matematica-a-cidade-e-a-vida-ingenium-92-2010.pdf

1. Com ajuda da Lei de Zipf, explique como o comportamento de uma cidade pode ser descrito com ajuda de redes sem escala
2. Em seguida, faça o mesmo para explicar o comportamento de uma lingua natural
Pesquise outras fontes de informação além do texto de Buescu e cite-as em seu trabalho.

Profa.Dra.Margarethe Born Steinberger-Elias


Obrigada!

Profa.Dra.Margarethe Born Steinberger-Elias


DB3BCM0506-15SA Comunicação e Redes
Créditos (T-P-I): (3 - 0 - 4)
Recomendações:
Processamento da Informação

Aula 7:
Modelos de redes e cálculo de medidas de nós individuais e grupos

Profa.Dra.Margarethe Born Steinberger-Elias


Centro de Engenharia, Modelagem e Ciências Sociais Aplicadas (CECS)

UFABC
Nas Aulas 5 e 6 vimos:

• Modelos de redes:
• aleatórias, mundo pequeno, livres de escala
• Modelos de redes e proc. de linguas naturais
• Exemplos de trabalhos de pesquisa em
proc.de línguas naturais aplicando modelos de
redes
• Lei de potência e propriedades estruturais
• Força dos nós fracos
Tipos mais comuns de medidas de nós individuais
Grau de centralidade: mede o número de
conexões diretas que cada nó tem
Quantas pessoas têm acesso a esta pessoa
diretamente?

Intermediação: cada nó é avaliado pelo


número de conexões que deixariam
de existir sem ele
Qual a chance desta pessoa ser o caminho
mais direto entre duas outras pessoas
na rede?

Proximidade: mede o acesso de cada nó


da rede a todos os outros
Qual a rapidez com que esta pessoa pode
alcançar todas as outras da rede?

Eigenvector: avalia quantos nós


conseguem conectar-se com todos os
outros em um dado limite de passos
(treshold), por ex. 4 ou 3 ou 2 ou 1
Quão bem esta pessoa está conectada
com as pessoas mais bem conectadas?
Profa.Dra.Margarethe Born Steinberger – CECS/ UFABC
Kite network (Rede Pipa) desenvolvida por David Krackhardt

http://www.orgnet.com:80/sna.html
Profa.Dra.Margarethe Born Steinberger – CECS/ UFABC
PageRank

C tem indice PageRank mais alto do que E, apesar de E ter mais


in-links do que C
EN inglês
PT português O poder das línguas e suas conexões
ES espanhol
IT italiano
HU húngaro
FR francês
DE alemão
Nl holandês
UK ucraniano
RU russo
RO romeno
NO norueguês
CA
FI finlandês
SV sueco
KO croata
HE hebraico
DA dinamarquês
ZH tcheco
JA japonês
ID irlandês
AR
BG flamengo
FA
TR
Tarefa 4 para dia 23/7 (individual): fazer upload no TIDIA até 23:59
PARTE 1: Use medidas de centralidade, intermediação e de proximidade para medir as
conexões no sentido horário entre indivíduos a1, a2,ae,a4, b1, b2, b3, b4, c1,c2,c3, d1
e entre os grupos A, B, C, D na rede abaixo
Tarefa 4 para dia 23/7 (individual): fazer upload no TIDIA até 23:59
PARTE 2: Com base nos caps.4 e 5 do livro Seis Graus de Separação, responda abaixo
(Pesquise outras fontes de informação além do texto e cite-as em seu trabalho)

1.“Em vez de mapear a probabilidade de um


evento como função de seu tamanho, a
maneira mais fácil de determinar o
expoente de uma lei de potência é
mapear o logaritmo da probabilidade
versus o logaritmo do tamanho”.
Explique esta afirmativa e crie um exemplo
usando o gráfico ao lado.

2. Explique o modelo de Kleinberg, o


conceito de homofilia e o que é
aleatoriedade uniforme

Profa.Dra.Margarethe Born Steinberger – CECS/ UFABC


Métodos mistos de análise de redes sociais

MÉTODOS QUANTITATIVOS MÉTODOS QUALITATIVOS

• SNA
Social Network Analysis como
método • Análise interacional -
Interaction Analysis
• DNA (Jordan and Henderson, 1995).
Discourse Network Analyser -
ferramenta de software
(Scott, 2001; Wassermann &
Faust, 1994)
Seleção e sorteio de textos do trabalho final
Análise de redes empíricas

Profa.Dra.Margarethe Born Steinberger – CECS/ UFABC


Referências complementares para
Trabalho Final
http://www.orgnet.com/sna.html

http://www.infosci.cornell.edu/courses/info204/2007sp/grap
hs.pdf

http://www.sciencemag.org/cgi/reprint/311/5757/88.pdf

http://www.firstmonday.org/issues/issue8_6/adamic/

http://www.research.ibm.com/SocialComputing/

Profa.Dra.Margarethe Born Steinberger –


CECS/ UFABC
Referências complementares para Trabalho Final

Kossinets, G. & Watts, D. Empirical Analysis of an Evolving Social Network,


Science 311, 88 (2006).
http://www.sciencemag.org/cgi/reprint/311/5757/88.pdf

Profa.Dra.Margarethe Born Steinberger – CECS/ UFABC


Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Probabilidade de vínculos

Kossinets & Watts 2005


Fig IC, classes compartilhadas e
homofilia

Kossinets & Watts 2005


Estabilidade das propriedades da rede

Kossinets & Watts 2005


Análise de resultados

Kossinets & Watts 2005


Dados longitudinais

Kossinets & Watts 2005


Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Kossinets & Watts 2005
Obrigada!

Profa.Dra.Margarethe Born Steinberger-Elias

Você também pode gostar