Você está na página 1de 145

Treinamento do PRTG Network Monitor

Paessler AG and PRTG Network Monitor


www.paessler.com www.paessler.com
AGENDA
 ITGX
 PAESSLER
 Certificação e Licenciamento
 Processo de Monitoria
 Arquitetura
 Telas e Hierarquia
 Configurações e Recomendações
 Por que monitorar
 O que podemos Monitorar
 Como Monitoramos
 Arquitetura do PRTG
 A Hierarquia e a Configuração do PRTG
 Networking
 Servidores e Serviços
 Monitorando uma Aplicação
 Monitorando Processos de TI e Negócio
 Processo de Instalação
 Criação de Mapas
 Notificações
 Criação de Dispositivos e Sensores
 LABORATÓRIO

10.11.2016 3
A ITGX
Por que
Por que aa ITGX
ITGX ??

Simplificação Agilidade

Eficácia
Inovação Integração

Redução Custo Operacional


ITGX – Unidades de Negócio

 Nossas Competências:
– Business Inteligence
• Dashboards para acompanhamento de KPIs
• Relatórios e Cubos Analíticos
• Big Data (Incorporação de info de Cloud)
• Compliance (Negócio)
– Infraestrutura
• Segurança da Informação
• Compliance (Rede, Banco de Dados, Aplicações)
• Recuperação de Desastres e Continuidade
• Monitoração de TI (NPM)
• Virtualização e Cloud Computing
– Banco de Dados
• Gestão e Tunning de Banco de Dados
– Digital Performance (APM)
• Analise de Performance e Capacidade de Aplicações e Infra
• Troubleshooting de Problemas em Produção

SNOC
24x7
SNOC
SNOC– Centro
- Gerenciamento
de Gerenciamento
de Infraestrutura
de Redeee Segurança
Segurança

Maior Maior
Visibilidade Agilidade

Segurança
Monitoramento de Rede
de
Infraestrutura

Monitoramento Antivirus
de Aplicações

Backup Patches
Parcerias estratégicas
Alguns Clientes
Niveis de Serviços oferecidos pela ITGX

Serviços
Gerenciados

Monitoria do
Ambiente

Serviços de Suporte

Desenho da Solução

Implementação da solução

Venda de equipamentos e licenças


A PAESSLER
PAESSLER - Monitoring Company

 A Companhia
• Fundada em 1996
• Matriz em Nuremberg, Alemanha
• 20 anos de experiência em desenvolver soluções poderosas e fáceis de
utilizar para monitorar a TI de nossos clientes
• Mais informações: www.paessler.com/company

 Compromisso com :
• Fazer o mais simples possível para:
Licenciamento, Instalação, Configuração, e Utilização
• Ser justo e transparente!
• Um negócio bem sucedido tem que gerar benefícios para todas as partes
• Que são os mesmos compromissos da ITGX, por isso a parceria bem
sucedida !

10.11.2016 13
Paessler – Fatos e Numeros

• 100% de propriedade dos fundadores e


funcionários
• 20 anos de crescimento constante de 25 a 60%
ao ano
• Mais de 170.000 clientes, em mais de 20 países
• Companhias de todos os tamanhos e segmentos
• > 70% das empresas da Fortune 100 mundiais,
usam um de nossos produtos

10.11.2016 14
PRTG: Tudo Incluido! Sem Custos Escondidos !

One single solution: Bandwidth, uptime, and performance monitoring


Your entire network at a glance: Monitoring of distributed IT infrastructures

Easy to use: User interfaces in multiple languages

Always up-to-date: Receive alerts through email, SMS, pagers, etc.


Long-term planning and optimization: In-depth reporting
and customizable dashboards

Reliable operation: High availability option via clustering

Quick start: Easy download, installation, configuration


Simple and fair licensing: All-in license, no add-ons, easy upgrades

10.11.2016 15
A Prova de Cerificação

 Prova On-Line, via WEB, com agendamento prévio na PAESSLER


 Pode, e Deve, usar consulta e o próprio PRTG
 Até 2hs de duração
 Com 50 questões
 70% de acerto mínimo para ser Certificado
 Maioria das questões são técnicas
– É esperado que você conheça todas as tecnologias de monitoramento do PRTG, todos os seus Sensores,
sua Hierarquia, Sistema de Notificação e Alertas, Relatórios, processo de instalação e upgrade
 Algumas são sobre a PAESSLER, e o Licenciamento do PRTG

 Material Recomendado :
– Usar o PRTG por 3 meses
– Ver os Vídeos do canal da PAESSLER no YouTube ou no Site da empresa
– Ler o Manual
– Ver os FAQs
– Conhecimento de TCP/IP Básico é Fundamental

– O Treinamento da ITGX acelera em muito o processo de aprendizado, e basicamente evita a necessidade de


ver o manual e os FAQs para o seu dia a dia e para a prova, porem a familiaridade com o PRTG por, no
mínimo, 30 dias, é necessário. Ver os vídeos, é recomendado.
– O maior foco do Treinamento da ITGX é no entendimento do PRTG, e como você pode tirar o maior proveito
dele para monitorar corretamente o seu ambiente. E não em fazer a Prova.
Licenças do PRTG

 Algumas Definições usadas pelo PRTG:


– Sensor : Um item sendo Medido e Monitorado
• CPU de um Servidor
• Disco do Mesmo Servidor
• Memória do Mesmo Servidor
– CORE Server : Item que Faz a Interface com o usuário, Guarda as configurações, e
medições, Responsável pelas Notificações e Relatórios
– PROBE : Item que efetivamente executa as Monitorações definidas no Core Server

 PROBES podem ser Instalados Livremente, quantos você quiser, dentro de um Pais !
 CORE Server normalmente é Limitado em 1 ativo, e um em HA, Passivo

 Licenças :
– Trial : Ilimitada, mas válida por 30 dias – após 30 dias, vira a Free
– Free : Limitada a 100 sensores
– Licenças Limitadas : 500, 1000, 2500, 5000 sensores
– XL1 - Ilimitada : Sensores Ilimitados, porem apenas 1 CORE Server em HA
– XL5 – Ilimitada : Até 5 Core Servers, Independentes ou não
– As Licenças Comerciais NÃO podem ser instaladas no software Free

 A licença do PRTG é baseada em Número de Sensores e CORE Server instalados


Por que, e o que Monitorar ?
Por que monitorar?

 Você já pensou em dirigir um carro sem painel de controle ?

 Se isso ocorresse, rapidamente você :


– Seria Multado por Excesso de Velocidade
• Você nem saberia que está acima do permitido !
– Ficaria sem combustivel
• Você nem saberia que está para acabar ou não !

 O Mesmo ocorre com a TI da sua Empresa !


– Se você não tiver um painel de controle ADEQUADO as SUAS Necessidades, você
terá problemas !

 Ah mais eu não tenho este problema ! Eu terceirzo TUDO !


– Otimo, mas....como você vai saber se o CONTRATADO está cumpriindo ou não com
os SLAs Contratados ?
– Quando terceirizamos algo, a Gestão do SLA sobre o qe foi contratado, passa a ser a
prioridade do Gestor que terceirizou o serviço (Caso BER)

10.11.2016 19
Por que monitorar?

 Verificar a Disponibilidade, Capacidade, e a Performance de Links e Servidores


 Verificar a utilização dos seus recursos (Sistemas e Infraestrutura)
 Determinar a “causa raiz“ dos problemas com maior agilidade
 Previsibilidade de Problemas, evitando que os mesmos ocorram
 Maior agilidade na recuperação de problemas
 Determinar ofençores de rede (IP e Protocolo)
 Previsibilidade de Upgrades
 Verificar correto funcionamento de sistemas, aplicações, processos de negócio
 Evitar que problemas de TI afetem o seu negócio
 Melhorar a segurança da sua TI (Patches, AV, Abertura de Chassis,
Temperatura, e Eletrica)
 Verificar se determinados processos de TI (Backup) ocorreram OK
 Ser notificado de forma eficiente em caso de problemas
 Ter relatórios de SLA dos dispositivos sendo Monitorados
 Aumentar a Visibilidade de sua TI

10.11.2016 20
O que monitorar?

 A resposta vai depender para quem você perguntar

– Se você perguntar para um analista de rede :


• Links
– Disponibilidade dos Links ?
– Ocupação dos Links ?
– Latencia ?
– Utilização por Aplicação (Protocolo) ?
– Utilização por Usuário ?
• Switches & Roteadores
– Status operacional ?
– Erros por porta ?
– Utilização por porta ?
• APs WiFi
– Status Operacional ?
– Banda disponivel ?
– Usuários conectados ?
– Erros de transmissão ?

10.11.2016 21
O que monitorar?

– Se você perguntar para um Analista de Storages :


• Disponibilidade ?
• Temos algum Erro em algum Disco ?
• Temos algum Erro em alguma controladora ?
• Disponibilidade ?
• Conectividade (iSCIS / FC) ?
• I/O por segundo ?
• Conexões simultaneas ?
• Espaço utilizado / livre ?

– Se você perguntar para um Analista de Suporte a Sistemas Operacionais


• Disponibilidade ?
• CPU, Memória, Disco, Rede ?
• Os Processos que deveriam estar executando realmente estão ?
• Usuários conectados ?
• Erros de sincronização ou replicação ?
• Os Patches e Antivírus estão atualizados ?
• Temos capacidade nos Shares ?

10.11.2016 22
O que monitorar?

– Se você perguntar para o DBA :


• Qual é o tamanho da Table Space, quanto está livre ?
• Qual é o buffer cache hit ratio ?
• Quantas sessões ativas / inativas temos agora ?
• Temos algum Lock no Banco de Dados ?
• Quantos FULL SCAN foram executados nos ultimos 5 min ?

– Se você perguntar para o operador :


• Os Backups rodaram ?
• O processo de envio de arquivos funcionou ?
• As tarefas agendadas estão em execução ?

– Se você perguntar o responsavel pelo Datacenter :


• Qual é a temperatura do Datacenter ?
• Algem entrou no Datacebter ?
• Alguma maquina teve o seu gabinete aberto ?
• Como está a tenção eletrica em cada circuito ?
• O No-Break está operando normalmente ?
• Tempo de Bateria ?
• Energia da Rua, como está ?
• Energia do Inversor, como está ? 10.11.2016 23
O que monitorar?

– Se você é o responsavel pela Segurança :


• As Catracas da Portaria estão funcionando ?
• As cameras do escritório de Timbuctu estão operacionais ?
• Tivemos erros de Logon ?
• Tivemos contas bloqueadas no AD ?
• Um usuário ROOT ou ADIMIN logaram no ambiente a noite ?
• O processo de AV está em execução e atualizado
• As Patches estão aplicadas (WSUS)
• O processo de Backup foi OK ?
• Temos Alguma Anomalia na Rede ?

10.11.2016 24
O que monitorar?

– Agora, se você perguntar para quem paga a conta (CIO, CFO, CEO)....

• Quais sistemas estão em funcionamento, e quais tiveram problemas hoje ?


• Quanto tempo ficamos com ERP / CRM / Site inoperantes neste mês ?
• Quantos usuários estão conectados no site, qual é o pico de usuários ?
• Qual é o tempo de resposta da Inclusão/consulta/cancelamento de pedidos ?
• Eu enviei um e-mail para o cliente XYZ e ele diz que não recebeu. O que
aconteceu ?
• Temos capacidade para operar na Black Friday ?
• O SLA que contratamos do fornecedor ABC está sendo respeitado ?
• Qual foi o SLA de cada Sistema no mes ?
• Quanto custa manter o sistema de CRM ativo ?
• O certificado digital venceu e ninguem viu !!!
• O fornecedor da China não consegue conectar ao site, por que ?

Com o PRTG nos monitoramos TUDO Isso !

10.11.2016 25
O que Monitoramos com o PRTG ?

• Monitoração de infraestrutura e facilities (No-Breaks, Temperatura, Network, Servers,


etc)
• Monitoração de Rede usando : Packet Sniffing, xFlow, IPFIX, SNMP, WMI
(Disponibilidade, Performance, Latência, Banda por Protocolo, Erros, QoS, etc…)
• Monitoração de Disponibilidade e Performance de Dispositivos > 230 sensors pre-
configurados
(SQL, Exchange, Ping, HTTP, email, Syslog, QoS, Linux, ADO, WMI, SSH…)
• Sensores Customizáveis por API, Scripts, Integração com Executáveis
• Completo suporte a monitoração de ambientes Virtualizados
(VMware, HyperV, Amazon CloudWatch, Virtuozzo, XEN, Docker)
• Completo suporte para monitoração de ambientes e redes Distribuidas (via “Remote
Probes”)
• Instalação em alta-disponibilidade via Cluster
• Monitoração de instalações com uso de IPv6
• Completo suporte a Relatórios e a confecção de Dashboards

10.11.2016 26
O que não Monitoramos com o PRTG ?

 O PRTG é um Network Performamce Monitor, com foco em TCP/IP.

– Desta forma, o PRTG não é a solução mais adequada para :

• Troubleshooting de problemas em aplicações


• Monitoração de Experiência de usuários nas Aplicações
• Análise de problemas de redes não IP
• Análise de problemas de camada 2, como Looping de Redes, ou definir a
conexão fisica entre equipamentos (Não suporta CDP que é proprietário da
CISCO)

– Para as questões de Aplicações, um Aplication Performance Monitor (APM)


é a ferramenta mais adequada !

10.11.2016 27
Diferenças entre o PRTG e um APM ?

 Como vimos até agora, o PRTG nos da uma visão Global e Horizontal
da TI de uma Empresa.

 Já um APM nós dará uma visão Vertical da TI, com foco em uma
aplicação.

– Olhando em detalhe a sua Aplicação, incluindo Queries de Banco de


Dados, Código Fonte de Aplicações, Análise da Experiencia de Usuários,
Alem de verificar os tempos de Servidores, e Links.
– O Foco de um APM é monitorar a experiencia de usuários utilizando uma
determinada aplicação, e fazer o troubleshooting de problemas de
performance desta aplicação.

 As 2 soluções, NPM e APM, São Complementares !

 A ITGX trabalha com os seguintes APMs


– NewRelic (na Nuvem)
– Dynatrace (instalação Local)
10.11.2016 28
O PROCESSO DE MONITORIA
Como Monitorar ?
 Como vimos o PRTG oferece diversas tecnologias para monitorar sua
infraestrutura, aplicações e processos
– Ping
– SNMP (Queries / Traps)
– TCP Port
– IP-SLA
– WMI / WBEM
– HTTP
– Performance Counters do Windows
– SSH para comandos Linux/Unix
– Verificação de arquivos (existência e conteúdo)
– QoS / Syslog
– NetFlow, sFlow, IPFIX, Network Sniffer
– SOA (vCenter, System Center, e outros)
– Execução de Scripts (shell, PowerShell, VBS, SQL)
– Integração com Executaveis
– Sensores Especificos (DELL, IBM, HP, EMC, APC, etc...)
– Outros... São 235 Sensores pré existentes !
 Agora vamos ver como utilizar o PRTG para Monitorar nossa Infraestrutura !
10.11.2016 30
Fatores de Sucesso para Monitorar sua TI

 Ter uma equipe Dedicada para esta Atividade


– Se a sua equipe de monitoria também for o seu suporte, qdo você precisar, você verá que a equipe
faz tudo, menos a monitoria do seu ambiente.
– E em pouco tempo, a sua monitoria não mais espelhará a realidade do seu ambiente operacional
 Conhecer sua Infraestrutura e a Ferramenta Utilizada
– Sem isso, coisas importantes ficarão de fora da monitoria, você ainda continuará a ter problemas, e
não será avisado deles.
 Conhecer o seu negócio
– Da mesma forma que a Infra, se você não conhece o seu negócio, você poderá gastar muita energia
para tratar incidentes sem importância, ou não ter ações definidas para casos importantes.
 Ajustar os Thresholds dos Sensores para Refletir a sua Realidade
 Documentar e otimizar o processo de Notificação e Escalonamento
 Documentar os processos de resolução de Incidentes Críticos
– Sem esta documentação, sua equipe N2 será acionada mais do que o necessário
– Você demorará mais tempo que o necessário para resolver um incidente
 Definir e Acompanhar os SLAs para o seu negócio
– Aquilo que não se mede, não se melhora.
– E se você não acompanhar a execução dos seus níveis de serviço periodicamente, poderá não ter
tempo para se adequar ao seu SLA
 Atuar na solução de Todo e Qualquer Alerta
– Tem Alerta ? Tem Problema ! = > Tem que ter uma ação definida !
10.11.2016 31
Notificações
 O processo de notificação do PRTG pode ser disparado por diversos eventos
– Por “Situação” (State) : Quando um sensor ficar em determinado estado, dispare a notificação
– Por “Velocidade” (Speed) : Quando um link estiver consumindo X de banda, dispare
– Por “Volume” (Volume) : Quando um sensor atingir determinado volume (X MB/h), dispare
– Por Threshold (Marca) : Quando um sensor atingir a marca de X% dispare
– Por Mudança (Change) : Sempre que um sensor mudar, dispare

– Podemos ter múltiplas notificações no mesmo sensor com o mesmo evento, para pessoas diferentes
– Podemos ter múltiplas notificações no mesmo sensor com eventos diferentes
– Toda a notificação pode ter um escalonamento (Se não resolver em X tempo, dispara outra notificação para outra
pessoa)
– Toda a notificação pode ter uma “notificação de solução” associada, que é disparada quando o problema é resolvido

 A Notificação também respeita a Hierarquia do PRTG (a ser visto mais a frente)


– Se você criar uma notificação em um grupo inferior, você pode manter a notificação herdada, ou pode suprimi-la
– Desta forma podemos ter um processo de notificação Global, que será sempre Disparado, e um outro Especifico,
que só será disparado para determinados Grupos de Dispositivos
– Ex : Notificações Múltiplas :
• Para todos os Alarmes, Notificar a equipe de Operação por e-mail e se o problema não for solucionado em 60 min, dispare um Slack
para o Gerente da Area.
• Se o erro for em um servidor de DBMS, dispare um slack para a equipe de DBA, e se o problema não for resolvido em 2h, envie um
Slack para o Diretor de TI
• Quando o problema for solucionado, envie um e-mail para DBA, Operações e Diretor TI informando que está OK !

10.11.2016 32
Processo de Notificação e Escalonamento

 O PRTG tem nativamente diversas formas de notificar a ocorrencia de um Alarme


– Envio de e-mail / SMS (via gateway a ser contratado)
– Notificação visual e sonora na Console do Produdo
– Via PUSH com Aplicativo iOS e Android (disponivel para instalação, sem custos)
– Via Execução de uma ação HTTP POST
– Via envio de uma SNMP Trap
– Via envio de Mensagem SYSLOG
– Via Execução de um Programa (Residente no Probe que disparou a notificação)
– Via Notificação Amazon
– Via sistema de Ticket Interno

10.11.2016 34
Integração do PRTG com outras Soluções

 Com estas opções podemos Integrar o PRTG com outros Aplicativos e Consoles
de Gerencia
– Via SNMP Trap (O PRTG pode Enviar e Receber Traps para notificar de um Alarme)
• Ex: O Oracle Grid Control pode enviar uma Trap para o PRTG para informar que tem um
problema no Oracle
• O PRTG pode enviar uma Trap para a TEC do Tivolli para indicar que um Link caiu
– Via HTTP POST
• O PRTG pode repassar alertas para o SLACK e outros aplicativos via HTTP POST
• https://blog.cdemi.io/setting-up-prtg-to-post-to-slack/
• Aqui vemos como integrar com o Linc ou Sype
• https://www.matthewproctor.com/sending-prtg-notifications-via-lync/
– Via envio de e-mail para o seu Sistema de Ticket
• Na ITGX temos o PRTG Integrado com o ZenDesk
– Via API
• Você pode criar aplicativos que falem com o PRTG para enviar e/ou receber Notificações para
o PRTG
• Um exemplo disto é : http://www.prtgplugins.com/
• Outra integração interessante é : https://www.uvexplorer.com/ que mapeia a sua rede na
camada 2 integrado ao PRTG

10.11.2016 35
Integração do PRTG com outras Soluções

Ticket
Backup E-Mail System
Query E-Mail

Plug-In

E-Mail
Trap
SNMP E-Mail
Oracle
Grid
Control http post
Trap action
SNMP
PRTG http post
http post action
action
Trap http post
SNMP action

Tivolli Enterprise
Console
10.11.2016 36
O PRTG

Arquitetura

10.11.2016 37
PRTG Arquitetura do Produto

 PRTG Server
– Responsável pela Interface do usuário, Configurações, Geração de Alertas e Relatórios
 PRTG Probe
– Responsável por executar a monitoria
– OBS : Os Sensores são executados no PROBE, não nos dispositivos monitorados
10.11.2016 38
Monitoramento distribuido com o PRTG

 Os Probes coletam as informações de Monitoria e as enviam para o CORE Server


 Core Server Analisa os dados, gera alertas, publica relatórios, e mapas, guarda as configurações
 Todos os dados são transmitidos via SSL, sem necessidade de VPN
 Em caso de queda da comunicação entre o PROBE e o Server, a monitoria continua a ser feita, com os
resultados guardados no HD do Probe, até que a comunicação seja restabelecida.

10.11.2016 39
Pagina Inicial do PRTG
Hierarquia do PRTG
Hierarquia do PRTG

 Como sugestão de Hierarquia, recomendamos o seguinte modelo :

 Probe Localidade
– Testes Externos
– Network
• Links e Roteadores
• Firewalls
• Switches
• APs
– Servidores
• DBMS
• Aplicação
• Infraestrutura
• Storages
– Sistemas e Serviços
• CRM
• ERP
• Site
Configuração do PRTG

 Por ser hierárquico, todas as configurações feitas nos grupos mais altos serão
validos para todos dai para baixo :

– Para evitar problemas, devemos evitar substituir configurações globais por outras
muito especificas, feitas diretamente em dispositivos ou sensores.
– Se isso for mandatório, devemos ter isso documentado e divulgado para todos da
equipe de monitoria.
– As configurações, (usuários, acessos, tempo de scan, etc...) devem ser sempre feitas
nos níveis o mais alto possíveis
– Devemos sempre Agrupar dispositivos por suas funções em Grupos
– Cada Localidade deve ter um PROBE e a hierarquia das localidades devem ser
sempre iguais (retirando apenas o que não existe em alguma delas)
– Como vimos anteriormente as Notificações também respeitam a hierarquia do PRTG,
e podem ser herdadas ou suprimidas, quando criamos uma nova notificação em um
nível mais baixo
Configuração do PRTG

 Seguindo este padrão conseguimos ter algumas facilidades :


– Definir intervalos diferentes de scan para tipos de dispositivos diferentes, porem
dentro do grupo, todos serão iguais
• Network : 1 min
• Servers : 5 min
– Podemos ter notificações diferentes, para pessoas diferentes, para problemas em
dispositivos diferentes
• Erro no DBMS => Notifica o DBA
• Erro na Rede => Notifica equipe de Networking
– Podemos Criar Templates para os dispositivos e aplicar ao Grupo
• Ex : Imagine que todos os switches sejam iguais, você configura a monitoração de um switch
da forma que você acha ideal, cria um template usando este switch como modelo, e coloca
este template como o padrão do Grupo. Com isso todo o novo switch já será configurado
como o seu Template.
Configuração do PRTG

 Recomendações :
– Intervalo de SCAN
• 1 min para Network e Serviços Críticos (site)
• 5 min para servidores (x1.5 para WMI) padrão
• Atenção para não termos sobreposição de scans
– Usar SNMP v2c sempre que possível
– Limitar o uso de WMI e Performance counters se possível, pois consomem recursos
– Limitar a 2500 sensores “tipo 1” (Ping, SNMP, verificação de Porta) por Probe (é
suportado até 5.000 e em maquina Fisica)
– Sensores “tipo 5” (SOA, Sniffer, xFlow, Business Process, File Scan) chegam a
consumir 300x mais recursos do PROBE que os sensores “tipo 1”, e são limitados a 50
por Probe (já equivaleriam aos 2500 sensores “tipo 1”)
– Os tempos de SCAN podem ser redefinidos de um mínimo de um a cada 10 seg ate o
tempo que você achar necessário (não recomendo)
– Mais de 2.500 sensores por Probe é recomendado ter maquina FISICA
– Não passar de 5.000 sensores por Probe, não é Suportado
– Usar o CORE em maquina Física para ambientes com mais de 5.000 sensores
– Quando em maquina Virtual, as Maquinas do PRTG devem estar Fixas nos Hosts
ESXi / Hyper-V (sem DRS para estas maquinas)
– Quando tivermos mais de um CORE Server na Instalação, usar o Enterprise Console
para a visualização Integrada da Monitoria
Configuração do PRTG

 Caso o seu Probe Health Check alarme :


– Aumente o Intervalo de SCAN dos Sensores
– Substitua os sensores por outros de menor impacto (WMI => SNMP)
– Não Guarde os Resultados de Syslog, HTTP Content, e outros
– Faça upgrade de CPU e Memória do PROBE

 Caso o seu CORE Server System Health Check alarme :


– Aumente o Intervalo de SCAN dos Sensores
– Desligue o “Similar Sensor Detection”
• Setup / System Administration / Monitoring
– Diminua o tempo de guarda de dados individuais de monitoria
• Setup / System Administration / CORE & PROBES / Historic Data Purge
– Não Guarde os Resultados de Syslog, HTTP Content, e outros
– Faça upgrade de CPU e Memória do CORE
– Use Maquina Física

 Para verificar o status da sua instalação, e verificar quantos sensores de cada


tipo você esta usando :
– Setup / System Status
Dashboard Operacional – inicialmente pre-implementado
Nas ultimas versões, temos que implementa-lo
Networking
Termos comuns

Rede Conjunto de computadores Interligados pelo mesmo meio físico que falam o mesmo protocolo

Roteador Equipamento que Interliga diversas Redes Logicas ou Fisicas (Rede do RH com a do Financeiro, ou Matriz com Filiais)

Equipamento que Interliga diversos Computadores, porem qdo um fala todos escutam, como vc gritar para outra pessoa em
Hub uma sala cheia

Equipamento que Interliga diversos Computadores, porem qdo um fala so o destinatário escuta, como falar com uma pessoa ao
Switch telefone - Elimina a Colisão - mais seguro
AP Um HUB que usa o Ar como meio de Transmissão

Técnica que permite diversas redes diferentes compartilharem os mesmos recursos físicos - Switches/Cabos, sem que um
VLAN (802.1q) interfira com o outro. Aumenta Segurança e Controle, Limita o Domínio de Broadcast

Trunk Juntar, porem mantendo a segregação, 2 ou mais VLANs em um mesmo Cabo e Porta de Switch

Juntar 2 ou mais cabos de rede entre equipamentos diferentes e trata-los como se fossem 1 só cabo, para Aumentar o
LACP (802.3.ad), Bounding Thrugthput (Performance) e Disponibilidade

802.3 ou CDMA/CD ou
Ethernet Exemplo de protocolo de comunicação de enlace - Camada 2 do modelo OSI (MAC x MAC)

802.11 ou CDMA/CA ou
WiFi Exemplo de protocolo de comunicação de enlace - Camada 2 do modelo OSI (MAC x MAC)
Cabo UTP Meio Fisico (Camada 1 do modelo OSI), Unshielded Twisted Pair (Cabo de Par Trançado não Blindado)
Endereçamento IP Composto por um Endereço e uma mascara de Rede, que identifica um único dispositivo na rede
Endereços Locais Rede 10.0.0.0/8, Rede 172.16.0.0/12, Rede 192.168.0.0/16, Rede 169.254.0.0/16
Termos comuns

Suíte de Protocolos de Redes, compreendendo Network Access Layer (Físico), Internet Layer (IP, ICMP, ARP), Transport Layer
TCP/IP (TCP, UDP), Application (Ports : HTTP/S, Telnet, FTP, SMTP, Oracle, SQL Server)
Internet Protocol, base da comunicação das redes atuais, dentro da suíte de protocolos IP temos os Orientado a Conexões
(TCP), os não Orientado a Conexões (UDP), os de Controle (ICMP), Gerenciamento (IGMP) e o de resolução de endereços
IP físicos (ARP)

Transmission Control Protocol : Usando para as comunicações com controle de sessão (os que vc sabe que o destinatário
TCP recebeu ou não o pacote), são mais seguras que as conexões UDP (sem conexão), mas tem um overhead maior

User Datagram Protocol : Protocolo sem controle de sessão, utilizado em aplicações que necessitam de rápida resposta e baixo
UDP controle (Ex : DNS, VoIP, Video), Send and Forget, você não sabe se o destino recebeu o pacote.
Utilizado para verificar ou controlar as comunicações (Ex: PING na maioria das plataformas usa ICMP), Router Redirect é uma
mensagem ICMP que um roteador (default gayteway da rede), informa a um cliente que para chegar a um determinado destino
ICMP ele deve falar com outro roteador (cria rotas estáticas temporárias nos clientes) é um risco de segurança

Latência Tempo de Propagação de uma informação pelo meio (latência alta, impacta na interatividade de uma aplicação – ex: TS, VoIP)

Normalmente medido em Mbps, mede a Capacidade de um Link, ou Quanto de informação o Link leva de um ponto a outro
Banda naquele intervalo de Tempo (Não é Velocidade do Link, que é medida pela latência)

Tempo que um pacote foi enviado ao seu destino e a sua resposta voltou (o tempo de PING é o RTT entre os 2 pontos), e a
RTT (Round Trip Time) metade da Latência.

Variação da Latência, qdo temos um Jitter alto, é sinal que o link está com problemas e pode vir a cair (impacta diretamente na
Jitter qualidade de aplicações UDP – VoIP / Video e outras)

Flap Usado para indicar que um link está ficando Ativo e Inativa varias vezes em um período curto de tempo

Qualidade de Serviço, em termos práticos usamos em 2 senários : Limitação ou Priorização de Banda e Pacotes por aplicção
QoS (priorizar as mais importantes), ou se tratando de VoIP, a medida da qualidade do Link
Mean Opinion Score (indicador médio de opinião), um indicador empírico e subjetivo que a CISCO criou para indicar a
qualidade de uma ligação VoIP em um link (5 = Excelente, 0 = Link Fora), os itens que afetam o MOS são : Latencia, Jitter,
MOS Pacotes fora de Ordem, Corrompidos e Perdidos
Link

 O que ?
– Disponibilidade
– Latência
– Banda
– Protocolos sendo utilizados
– IPs que consomem recursos (ofensores da rede)
– Qualidade de Seviço para Voz e Video

 Como
– Ping em IP com rota passando pelo Link (ou usar Probe Externo)
– Ping até o destino, ou usar o IP-SLA
– SNMP na porta do Roteador
– Coleta de xFlow do roteador ou Packet Sniffer da porta espelhada
– IP-SLA, ou QoS entre 2 Probes

10.11.2016 51
Monitorando Link : Disponibilidade e Latência

 Principal indicador de um Link


 Como :
– Via Ping
• Mede a Disponibilidade e a Latência
entre o PROBE do PRTG (ou outra
máquina via “remote-ping”) e um
Roteador em um outro site, ligados
via um Link de Telecomunicação. IPSLA
PING
• Problema : Sensor
– A Rede Local vai Interferir na
medição deste indicador, e uma
indisponibilidade local, vai ser
entendida, como uma falha do Link

– Via IP-SLA
• Mede a qualidade do link entre 2
Roteadores Cisco

• Problema :
– Só disponível nos Roteadores CISCO
– Tem CUSTO de Licença Extra
– A Administração dos Roteadores
geralmente é da OPERADORA, que
pode configurar o IP-SLA de forma
ERRADA
Monitorando Link : Consumo de Banda

 3º indicador de qualidade do Link


 Como :
– Via SNMP Query
• O PROBE do PRTG “pergunta” ao
dispositivo monitorado, de tempos em
tempos, como está a ocupação de
banda de rede daquela interface
• Problema :
– O Dispositivo a ser monitorado tem
que PERMITIR o acesso via SNMP
pelo PROBE.
– Consumo de Recursos (CPU e SNMP Trap
Banda) para fazer a Monitoria
SNMP Query
– Temos que conhecer a REDE para
saber se estamos fazendo a
Monitoria no Local Correto

– Via SNMP Trap


• O PROBE do PRTG é Informado pelo
Dispositivo Monitorado que um
Threshold foi Atingido.
• Problema :
– Apesar de resolver q questão do
consumo de recursos do dispositivo
sendo monitorado, aumenta em muito
o esforço da configuração da
Monitoria, pois cada dispositivo terá
que ser configurado.
xFlow : Detalhamento do Consumo de Banda

 Quando monitoramos o consumo de Para sabermos o que esta trafegando no link Internet
banda de um Link, normalmente
vemos a sua ocupação (Ex: temos a Configurar o NetFlow no Roteador
Enviando as Informações para o Probe PRTG
ocupação de 40Mbps de um link de
50Mbps)
 Porem só esta informação, não é
suficiente para descobrirmos o que
ou quem está causando esta
ocupação, para isso, temos que usar
a análise de fluxo de dados na rede
(sFlow, NetFlow, jFlow, IPFIX)
 O processo de Coleta de
Informações de consumo de link é
feito no dispositivo sendo analisado
(coletor), e os dados são enviados
para uma aplicação para a sua xFlow Data
análise (Server)
 O PRTG é um Server xFlow
 O Agente deve ser ativado no Informações do trafego são coletadas pelo Dispositivo
e enviadas ao Server O PRTG Analisa os Dados Recebidos e Mostra :
Dispositivo (Roteador, Firewall, Protocolos que mais consomem
IPs que mais Consolem
Switch), sendo analisado Quem fala com quem
Alternativa ao xFlow

 Eventualmente, nossos dispositivos Para sabermos o que esta trafegando no link Internet
de rede podem não ter suporte a Via Network Sniffer

xFlow Configurar o espelhamento de porta no Switch


A porta do FW espelhada para a porta do PROBE
 Ou apesar de terem o suporte, é
uma feature licenciada a parte, a
qual podemos não ter.
 Ou o dispositivo é gerenciado por
3os (empresas de Telecom) e é difícil
ter a sua correta configuração.
 O que fazer neste caso ?

 Para resolver este problema, o


PRTG suporta o sensore “Network
Sniffer”, onde o próprio PRTG fara a
coleta dos pacotes, via
Sniffer Data
espelhamento (Port Mirror, Port
SPAN) de porta de um switch, que
está ligado ao Link (ou segmento de
rede a ser analisado), para a porta Conectar o PROBE no SW que esta conectado
O PRTG Analisa os Dados Recebidos e Mostra :
ao Dispositivo a ser analisado
Protocolos que mais consomem
onde temos um PROBE do PRTG IPs que mais Consolem
Quem fala com quem
O Resultado é o Mesmo !

10.11.2016 56
Monitorando VoIP

 Verifica indicadores dos seus links


– Jitter, Latência, Perda de Pacotes,
Pacotes Fora de Ordem e
Corrompidos.
 Calcula o MOS (Mean Opinion Score) O que voce
queria Medir
– 0 = Sem VoIP
– 5 = VoIP de Excelente Qualidade
IPSLA

 Como : QoS
Sensor
– Via IP-SLA
• Mede a qualidade do link entre 2
Roteadores Cisco
– Via QoS Sensor do PRTG
• Mede a qualidade entre 2 Probes do
PRTG
• O Sensor é instalado nos Probes do
PRTG
• A LAN vai interferer na medição
– Via SIP PING
• O PRTG solicita que o PABX
ping o dispositivo final

** Ou seja, em ambos os casos, só temos uma aproximação da qualidade de chamada


Monitorando VoIP
Monitorando Link : O que mais Monitorar

 “Saúde” dos Roteadores


– O Link pode estar OK, mas se o
Roteador estiver com problema, o
efeito é o mesmo, porem a solução é
diferente.
 Como :
– Via SNMP & Syslog
• Monitorar CPU, Memória,
Temperatura, Indicações de Erro.
Syslog
– Via SNMP Cisco System Health SNMP Query
• Mede os principais parâmetros de
disponibilidade de dispositivos CISCO

• Problema :
– Só disponível nos Roteadores CISCO
Monitorando Switches

 “Saúde” dos Switches


 Como :
– Via SNMP & Syslog
• Monitorar CPU, Memória,
Temperatura, Indicações de Erro.

– Via SNMP Cisco System Health


• Mede os principais parâmetros de
disponibilidade de dispositivos CISCO

 Dados operacionais
– Banda por porta
• SNMP
• RMON SNMP Query
– Erros
– Broadcasts
– Drops
– Colisões (!)
– Tamanho de pacotes

 Geralmente via VLAN de


Gerencia
Servidores e Serviços
Servidor Windows
 O que ?
– Disponiblidade e UpTime
– CPU, Memória, Disco (espaço, I/O), Rede
– Hardware : Fontes, Erros de Discos, Temperatura, Abertura Chssis (Insight
ou Open Manager deve estar instalado no servidor)
– Atualização de Segurança : Patches, e Antivirus
– Serviços e Processos : Serviço está emexecução
– Schedule Tasks : Foi executado, qdo ?
– Windows Logs (ex: verificar erros de login)
– Existencia e Conteúdo de Arquivos / Diretórios
– Erro de Replicação do AD
– Usuários Logados (Console e Sessoes de TS, Usuários no IIS)

 Como
– Ping
– SNMP
– WMI / Performance Counters / SSH
– Verificação de Processos e Arquivos
– Sensores especificos para DELL, HP, IBM 10.11.2016 62
Servidor Linux

 O que ?
– Disponiblidade e UpTime
– CPU, Memória, Disco (espaço), Rede
– Hardware : Fontes, Erros de Discos, Temperatura, Abertura Chssis (Insight
ou Open Manager deve estar instalado no servidor)
– Existencia e Conteúdo de Arquivos / Diretório
– Procesos : Está em execução
– Syslog

 Como
– Ping
– SNMP
– SSH / Scrip
– Syslog
– WBEM
– Sensores especificos para DELL, HP, IBM

10.11.2016 63
Storages

 O que ?
– Disponibilidade
– CPU / Memória / Rede (SAN / NAS)
– Controladoras
– Volumes Logicos
– Discos Fisicos
– I/O
– Espaço em Disco

 Como
– Ping, TCP Port
– Sensores especificos do Storage (NetApp, QNAP, EMC, EVA, DELL)
– MIB Importer (para outros como Compellent, 3Par, outros)

10.11.2016 64
Oracle

 O que ?
– Disponibilidade
– Memoria
– I/O
– Armazenamento
– Objetos
– Sessoes
– Outros...

 Como
– Ping, TCP Port, Oracle Especifico, Processos, Logs
– Queries no Banco de Dados
– SNMP
– Integração com o CloudControl (Via Trap SNMP)

10.11.2016 65
Oracle 10g e 11g
SQL Server
O que ? Descrição Alarme Erro
SELECT ROUND((1-(sum(phy.value) / (sum(cur.value) + sum(con.value))))*100,2) "Cache Hit Ratio"
FROM gv$sysstat cur, gv$sysstat con, gv$sysstat phy
WHERE cur.name = 'db block gets'
Buffer Hit Ratio AND con.name = 'consistent gets'
AND phy.name = 'physical reads'
and cur.INST_ID = con.INST_ID
and con.INST_ID = phy.INST_ID <90 <70
Library Cache Hit rate select 100*(sum(pins)-sum(reloads))/sum(pins) from gv$librarycache <99 <80
Dict Cache Hit rate select 100*(sum(gets)-sum(getmisses))/sum(gets) from gv$rowcache <90 <69
select sum(value) from gv$sysstat
Redo Log space requests
where name = 'redo log space requests'  5000  10000
Page Splits Number of page splits per second that occur as the result of overflowing index pages.
SELECT Decode(sum(immediate_gets)+sum(immediate_misses),0,0,
Redo Allocation Ratio sum(immediate_misses)/(sum(immediate_gets)+sum(immediate_misses))*100) ratio
FROM gv$latch WHERE name IN ('redo allocation') >81 =100

SELECT Decode(sum(immediate_gets)+sum(immediate_misses),0,0,
Redo Copy Ratio sum(immediate_misses)/(sum(immediate_gets)+sum(immediate_misses))*100) ratio
FROM gv$latch WHERE name IN ('redo copy')
>81 =100
select /*+ no_merge */ sum(io.physical_reads)
from gv$sess_io io
Sessões atuais com mais leituras , gv$session s
físicas where s.sid = io.sid
and s.type != 'BACKGROUND‘and io.INST_ID = s.INST_ID
order by io.physical_reads >50000 >75000
select substr(to_char(max(100 * s.disk_reads / t.total_disk_reads), '99.00'),
2) || '%' load
from (select sum(disk_reads) total_disk_reads
from gv$sql
where command_type != 47) t,
SQL que consomem mais LOAD gv$sql s,
do Banco de Dados gv$sqltext p
where 100 * s.disk_reads / t.total_disk_reads > 2.5
and s.disk_reads > 50 * s.executions
and s.command_type != 47
and p.address = s.address
and s.INST_ID = p.INST_ID
10.11.2016>90
>85
66
Oracle 10g e 11g
SQL Server
O que ? Descrição Alarme Erro
select round(((df.BYTES - fs.BYTES) / df.BYTES) * 100) usage_pct , df.TABLESPACE_NAME
FROM
( select TABLESPACE_NAME, sum(BYTES) BYTES, count(distinct FILE_ID) FILE_ID from dba_data_files
Check Tablespace Oracle – group by TABLESPACE_NAME ) df, ( select TABLESPACE_NAME, sum(BYTES) BYTES from dba_free_space
DATAFILES group by TABLESPACE_NAME) fs
where df.TABLESPACE_NAME=fs.TABLESPACE_NAME
and df.TABLESPACE_NAME NOT IN ('SYSTEM','SYSAUX')
order by df.TABLESPACE_NAME asc >70 >90
select round(substr(to_char(sum(waits) / sum(gets)), 1, 10)*100,10) "Ratio Wait/Gets"
Contenção em Segmentos UNDO
From gv$rollstat >1.0 >2.0
select ((sum(A.Count) / (sum(B.Value) + sum(C.Value))) * 100) Pct
from gV$WaitStat A, gV$SysStat B, gV$SysStat C
where A.Class = 'free list'
and B.Statistic# = (select Statistic#
from gV$StatName b1
where Name = 'db block gets'
Free Lists and b1.INST_ID = b.INST_ID)
and C.Statistic# = (select Statistic#
from gV$StatName c1
where Name = 'consistent gets'
and c1.INST_ID = c.INST_ID)
and a.INST_ID = b.INST_ID
and b.INST_ID = c.INST_ID >1 >1.5
select count(object_name)
Objetos Inválidos
from dba_objects where status <> 'VALID' >1 >1.5
Objetos alterados nas ultimas 12 select count(object_name)
horas from dba_objects a where a.last_ddl_time > sysdate-1/2 >1 >1.5
SELECT count(1)
Monitorar sessões com longa
FROM gv$session_longops
duração
WHERE sofar/totalwork < 1 >100 >150
select round(max(elapsed_time)/1000000)
SQL com ELAPSED_TIME Alto (
from gv$sql
Maior que 15 minutos)
where parsing_schema_name not in ('SYS','SYSTEM','SYSMAN') >900 >1800
select round(max(cpu_time)/1000000)
SQL com CPU_TIME Alto ( Maior
from gv$sql
que 30 minutos)
where parsing_schema_name not in ('SYS','SYSTEM','SYSMAN') >1800 >3600
Verificar o Listener TCP Port 1521 Error
10.11.2016 67
SQL Server
SQL Server
O que ? Descrição Alarme Erro
Number of user connections. Because each user connection consumes some memory, configuring overly high
User Connections numbers of user connections could affect throughput. Set user connections to the maximum expected number of
concurrent users.
Logins Total number of logins started per second.
Logouts Total number of logout operations started per second.
Full Scans Number of unrestricted full scans per second. These can be either base-table or full-index scans.
Page Splits Number of page splits per second that occur as the result of overflowing index pages.
Table Lock Escalations Number of times locks on a table were escalated.
Percentage of pages found in the buffer cache without having to read from disk. The ratio is the total number of cache
hits divided by the total number of cache lookups since an instance of SQL Server was started. After a long period of
Buffer Cache Hit Ratio time, the ratio moves very little. Because reading from the cache is much less expensive than reading from disk, you
want this ratio to be high. Generally, you can increase the buffer cache hit ratio by increasing the amount of memory
available to SQL Server.
Database Pages Number of pages in the buffer pool with database content.
Stolen Pages Number of pages used for miscellaneous server purposes (including procedure cache).
Page Life Expectancy Number of seconds a page will stay in the buffer pool without references.
Connection Memory (KB) Total amount of dynamic memory the server is using for maintaining connections.
Optimizer Memory (KB) Total amount of dynamic memory the server is using for query optimization.
Total Server Memory (KB) Total amount of dynamic memory (in kilobytes) that the server is using currently.
Target Server Memory (KB) Total amount of dynamic memory the server can consume.
SQL Cache Memory (KB) Total amount of dynamic memory the server is using for the dynamic SQL cache.
Lock Requests Number of new locks and lock conversions per second requested from the lock manager.
Deadlocks Number of lock requests per second that resulted in a deadlock.
Average Wait Time Average amount of wait time (in milliseconds) for each lock request that resulted in a wait.

Number of Transact-SQL command batches received per second. This statistic is affected by all constraints (such as
Batch Requests
I/O, number of users, cache size, complexity of requests, and so on). High batch requests mean good throughput.

Number of SQL compilations per second. Indicates the number of times the compile code path is entered. Includes
SQL Compilations
compiles due to recompiles. After SQL Server user activity is stable, this value reaches a steady state.
Number of SQL recompiles per second. Counts the number of times recompiles are triggered. In general, you want
SQL Re-Compilations
the recompiles to be low.
10.11.2016 69
Monitorando Banco de Dados

 Para ter uma eficiente monitoração do ambiente de Banco de Dados, é


importante também monitorarmos o Servidor Fisico, e o Storage,
porem devemos monitorar como dispositivos Separados.

 Em outras palavras, não devemos monitorar o Servidor Oracle como


um unicio dispositivo, mas sim monitorar o Serviço Oracle como um
dispositivo, o Servidor que suporta o Serviço Oracle como um outro
sispositivo, e o Storage como um 3o dispositivo.

 O mesmo vale para os Servidores de e-mail, cluster e ambientes


Virtualizados, monitoramos o serviço separado dos servidores.

 O principal benefício disto é podermos usar Templates para monitorar


os serviços, independente do Hardware e outros serviços que o
Servidor que suporta o serviço sendo monitorado tenha.

10.11.2016 70
E-mail / Exchange

 O que ?
– Disponibilidade
– Performance (tempo de entrega / recebimento de uma mensagem)
– Portas (SNMP, POP, IMAP, MAPI)
– Envio e Recebimento de e-mails (funcionamento do sistema)
– SPAM Black List
– Numero de Mensagens em uma caixa postal
– Tamanho da Fila
– Base de Dados / Backup

 Como
– Ping / TCP Port
– Exchange Especificos (PowerShel instalado)
– Performance Counters do Windows / SQL Server
– IP on DNS Black List
– Round Trip (este sendo o mais importante)

10.11.2016 71
Como Saber se meu e-mail funciona ?

 Além do Obvio :
– Verificar as Portas de Comunicação
– Verificar se os processos do serviço está ativo
 O PRTG tem sensores específicos para Exchange
– Via WMI
• Maior parte das estatísticas necessárias
– Via PowerShell
• DAG Status
• Mail Queue
• MailBoxes
• Backup Status
• Public Folders
 Mas também tem suporte para SMTP/POP3/IMAP4 Servers
– Incluindo poder ver se uma das mensagens da Cx Postal Monitorada tem uma
mensagem com texto específico (ex: Backup Error)
Como Saber se meu e-mail funciona ? Round Trip Sensor

 Crie uma conta de mail para o PRTG


no seu Servidor
 Crie uma conta de mail no Gmail ou
similar
 Programe esta conta do Gmail para
redirecionar todos os mails recebidos
para a conta do PRTG no seu
servidor, e apagar o mail após o
redirecionamento
 Programe o PRTG para enviar e-mails
para a conta do Gmail
 Programe o tempo que você considera
adequado para enviar e receber o mail
(ex: 1 min)
Como Saber se meu e-mail funciona ? BlackList Sensor

 Crie um dispositivo com que tenha o IP ou resolva via DNS o IP do seu MX


Record (IP Valido na Internet)
 Inclua este sensor
 Opcionalmente inclua outras listas de BlackList
 Defina um Threshold de Alerta
Servidores WEB IIS/ Appache

 O que ?
– Disponibilidade
– Performance (da Pagina)
– Usuários Conectados
– Conteúdo da Pagina
– Execução de uma Transação (varias paginas em sequencia)
– Acesso Externo (Performance, e Disponibilidade)
– Application Pools
– Validade e Segurança do Certificado

 Como
– Ping / TCP Port
– SSL Security Check
– HTTP / HTTP Advaced
– Windows e IIS Performance Counters
– Cloud Ping, Cloud HTTP
– Desenvolvendo uma URL que Execute uma operação.
10.11.2016 75
Servidores WEB : Principais Sensores
HTTP Sensor Verifica se consegue carregar uma URL
Carrega a Pagina, verifica se teve Mudança, e se veio a Pagina Certa ou teve Erro. Suporta
HTTP Advanced Sensor
Autenticação de usuário

HTTP Content Sensor Recupera valores Numéricos de uma Aplicação WEB

Permite verificar se uma sequencia de navegação, com até 10 URLs pode ser completada em
HTTP Transaction Sensor
um determinado tempo (ex: Login, compra 1, compra 2, checkout, paga, logout)

Cloud Ping Conecta a uma Porta TCP via um PROBE Remoto na Nuvem

Cloud HTTP Conecta usando HTTP a uma URL especifica, via uma PROBE Remota na Nuvem

SSL Certificate Verifica se o Certificado é valido e quantos dias tem para a sua expiração

SSL Security Check Valida se estão sendo utilizados os protocolos seguros (TLS) ou não (SSL 2.0, SSL 3.0)

Windows IIS Application Verifica os principais parâmetros do servidor IIS

HTTP Appache ModStatus PerfStats Verifica a saúde e parâmetros do servidor Appache

HTTP Appache ModStatus Totais Numero de Acessos ao Appache

10.11.2016 76
PRTG : Mais que um simples NPM
Monitorando uma Aplicação

 O que ?
– Disponibilidade
– Performance (da Pagina e/ou Aplicação)

 Como
– Ter uma URL para a Consulta, Inclusão, Exclusão
– Sensor Cloud HTTP / Cloud Ping verificando o Status Externo da sua Aplicação
– Sensor HTTP Advanced, para poder verificar o conteúdo retornado pela Aplicação
– Sensor HTTP Transaction, onde podemos simular uma navegação do usuário
– Usar o Business Process Sensor

10.11.2016 78
Monitorando Processos
Monitorando processos de TI & Negócio

 Como falamos no inicio deste treinamento, o PRTG é mais que um simples


Network Performance Monitor, com ele, e sua incrivel interface de criar
dashboards e outros sensores especializados, você consege monitorar alem de
sua inforaestrutura, e olhar os seus processos de TI e Negócio, como :

– Segurança
• Backup (via e-mal ou plugin), Antivirus (verificando o processo ou pelo Windows Security
Center), Aplicações de Patchs (WSUS ou Windows Update), saúde de seu Firewall, logins
Invalidos nos ultimos 5 min, logs de arquivos, e-mails e traps de alerta
– Efetividade dos seus sistemas
• HTTP Transaction Monitor
– Monitora uma simulação de navegação em seus sistemas
• HTTP Advanced Sensor
– Criando uma URL Autenticada para consulta (inclusão, e exclusao de pedidos)
• Cloud HTTP & Ping
– Verifica a acessibilidade dos sistemas externamente
• Verificando Logs de Arquivos
– Efetividade do seu negócio
• Uma query no Banco de Dados retornando o numro de pedidos da ultima hora que gera um
grafico em um dashboard do PRTG
– Saude de um sistema olhando todos os seus componentes
• Business Process

10.11.2016 80
Business Process Sensor
 Com este sensor, conseguimos agrupar diversos outros sensores que
monitoram diversos dispositivos, e apresentar um status único e geral de um
serviço que é suportado por estes dispositivos.

 Um busines process (BP) pode ser utilizado dentro de outro business process,
de forma a irmos montando a representação dos serviços de TI utilizando itens
mais simples, sem a necessidade de nos repetirmos.

 Um exemplo :

– Imagine que você tem um site de comercio eletrônico. Este site é suportado por um
cluster de Servidores WEB, Pelo Switch CORE, Pelo seu Acesso a Internet (que é
compartilhado por outros processos, e também é composto por 3 links e um cluster de
Firewalls), e pelo seu Cluster Oracle (que tambem é utilizado por outros processos e é
composto por 2 Servidores, o Switch de Interconnect, e pelo seu Storage). Como
representar isso ?

10.11.2016 81
Business Process e-Commerce
 Criar um BP representando o Serviço Internet
– 3 Links
– 2 Firewalls
 Criar um BP representando o Serviço Oracle (ou o nome que fizer mais
sentido)
– Disponibilidade e Acesso aos 2 Servidores Oracles (Porta TCP 1521)
– Saude do Storage (System Health) e algum outro contador como IOPS
– Saúde e Portas do Switch CORE e iSCSI (uptime e ping)
 Criar um BP Representando o e-Commerce
– Serviço Internet
– Serviço Oracle
– 2 Servidores WEB e tempo de resposta
– Switch Servidores
– HTTP Transaction Sensor
– Cloud HTTP
 E desta forma ir montando os demais processos de negócio da
empresa, usando peças já montadas anteriormente
– Desta forma, se o serviço Oracle ficar indisponivel, todos os Processos de
Negócio que Dependem dele, ficarão Indisponiveis 10.11.2016 82
Benefícios
 Simplificação :
– Desta forma simplificamos o processo de representar os nossos processos de
negócio
• Mapeamos processos menores, e mais faceis de levantar
– Vamos montando os demais processos da empresa, usando peças já montadas
anteriormente
• Não temos o trabalho de de levantar itens já mapeados anteriormente
• Se o serviço Oracle ficar indisponivel, todos os Processos de Negócio que Dependem dele,
ficarão Indisponiveis tambem.
 Termos o SLA dos Serviços, não de seus Componentes
– Não é por que um link caiu, ou um nó do cluster oracle ficou indisponivel, que os
serviços que são suportados por eles ficaram indisponiveis, eles ficaram em Alerta
(ou contingencia), mas ainda disponiveis.
 Darmos uma visão geral dos serviços dara a Direção da Empresa, não da TI
– Um gestor não quer saber de SLA de Links ou Servidores, ele quer Saber do SLA do
e-Commerce
 Mostrarmos a importancia de termos redundancias na TI
– Qdo um item redundante falhar, o BP vai avisar, mas mostrará tambem que ele
continua funcional, e sem o investimento em rdundancia, o processo de negócio teria
sido afetado
10.11.2016 83
Mapas e Dashboards
Dashboards

 Um dos pontos mais fortes do PRTG é a sua habilidade de permitir a criação de


Dashboards de forma rápida, simples e efetiva.

 Os Dashobords que permitem mostrar os resultados da monitoria feita com os sensores


do PRTG de formas variadas, e não apenas um alarme de algo fora do normal

 Podemos usar a representação Gráfica, Gauges (Velocímetros), Semáforos, e várias


outras, e podemos associar uma imagem a um outo mapa, de forma a criar mapas
linkados (para fazer o Drill Down)

 Em uma implementação Padrão de PRTG a ITGX implementa os seguintes Dashboards :

1. Visão geral
2. Infraestrutura (por site)
3. Banco de Dados
4. Segurança
5. Operação de TI
6. Facilities
7. Operação Monitoria

10.11.2016 86
Dashboards

10.11.2016 87
Dashboard de Negócio

 Como vimos quando falamos de monitoria de Oracle, com o PRTG podemos fazer uma
série de queries nos bancos de dados, e mostrar o resultado como gráfico, relatórios de
SLA e alertas.

 Usando o mesmo principio, podemos fazer criar sensores que monitoram o Desempenho
do Negócio da Empresa, para isso basta desenvolvermos uma query que traga do banco
de dados indicadores de performance do negócio, como :
– Pedidos/Dia
– Pedidos/Semana
– Faturamento/Mês
– Itens Entregues no Prazo/Mês
– Outros.....

• E assim criar os dashboards com os


gráficos e alertas apropriados, e com
isso passamos a ter um dashboard do
PRTG que o seu CEO, CFO, e COO
vão querer ter acesso na tela deles.

10.11.2016 88
Instalação do PRTG
PRTGProbes
: MapasRemotos
e Dashboards
Criação de Mapas e Relatórios
Notiticações

10.11.2016 92
Instalação do PRTG
Ao iniciar a instalação, a seguinte janela irá se
abrir. Clique em Next.
Aceite os termos
Insira um e-mail para alertas
Insira as informações de licença
Escolha a pasta de instalação
Aguarde o final da instalação
Após a instalação, uma janela do browser abrirá.
O login e senha padrão é “prtgadmin”.
Instalação de probe remoto
Preparando a instalação
Acesse, na interface web, o caminho: Setup >
System Administration > Core & Probes.
Na opção “Probe Connection Ips”, deixe
marcada a opção “All IPs available on this
computer”
Copie a chave do campo Access Keys. Será
necessária para a conexão do probe com o core
server.
No campo “Allow Ips”, insira o IP do probe, ou
“any” para aceitar conexão de qualquer IP
Para obter o arquivo de instalação, acesse o
caminho: Setup > Download / AddOns > Remote
Probe Installer
Instalando o probe
Execute o arquivo e na primeira tela clique em
Next.
Aceite os termos.
Aceite os termos.
Após os arquivos serem copiados, uma janela do
PRTG Administration Tool. Insira o IP ou nome
DNS do core server
Insira também a Access Key, copiada
previamente.
Após finalizar as configurações, confirme a
inicialização do serviço de Probe e clique em
Finish.
Liberando acesso
Após a conexão bem sucedida, aparecerá na
interface web uma janela para aprovação do
novo probe remoto. Clique em “Approve New
Probe”
Migração de dispositivos entre
probes
Para migrar dispositivos entre probes, temos 2
possibilidades.
1 – Clique com o botão direito no dispositivo,
acesse a opção Move > To Other Group.
2 – Acesse a aba “Management”. Arraste e solte
os devices no probe desejado.
Criação de mapas.
Para criar um novo mapa, acesse o menu
Maps > Add Maps.
Na primeira tela, defina o nome do mapa e seu
tamanho (em pixels).
Selecione um dispositivo no menu à esquerda,
depois selecione um ícone à esquerda e o
arraste para a tela central.
Pode-se montar uma visão gráfica da
infraestrutura de rede, interligando os
dispositivos.
Para linkar um mapa ao outro, selecione o
dispositivo, e na aba Properties, no campo
External Link, cole o endereço do mapa o qual
deseja linkar.
Geração de Relatórios
Existem 3 formas de gerar relatórios:

• Através do histórico de um sensor


• Gerar um relatório ad-hoc através do menu
Reports
• Agendar um relatório para ser gerado em um
horário específico, também através do menu
Reports
Para gerar através de histórico, acesse o sensor
que deseja o relatório acesse a aba Historic
Data.
Escolha, então, o range de tempo, o intervalo
médio entre os registros (para um relatório mais
preciso, deverá ser igual ao scanning interval do
sensor)
Escolha também os canais contemplados pelo
relatório e o formato do mesmo. Clique em Start
para gerar o relatório.
Para agendar ou gerar ad-hoc, acesse o menu
Reports > Add Report
Preencha o nome do relatório, escolha um
template.
Selecione a tag(necessário para o agendado) dos
sensores que devem ser incluídos no relatório e
escolha seu schedule
Selecione o range de tempo que será
contemplado no relatório e insira possíveis
comentários. Clique então em continue, para
selecionar os sensores do relatório ad-hoc.
Encontre os sensores desejados na coluna da
direita e os arraste para a coluna da esquerda
Acesse a aba “Run Now” e clique em “Run
Report” para gerar o relatório.
Notificações por e-mail
Para configurar notificações por e-mail, acesse o
menu Setup > Account Settings > Notifications
Dê um nome à notificação e defina a
sumarização.
Marque a opção “Send Email”. Entre com o e-
mail destinatário das notificações. Clique em
Save.
Criação de Dispositivos e Sensores
Trabalhando com o Suporte
Como criar um dispositivo.

1. Clicando dentro do Grupo/Subgrupo e utilizando o ícone “Add Device” 2. Clicando com o botão direito do mouse Grupo/Subgrupo onde o dispositivo será adicionado

Campos a serem preenchidos

Device Name: Nome do dispositivo


IP Version: IPv4 ou IPv6
IP Adress/DNS: IP ou hostname do dispositivo.
Tags: utilização de uma ou mais TAGs de identificação.
Device Icon: Ícone a ser mostrado na arvore de sensores

Device Management: como os sensores serão adicionados, existem 4 opções


Manual: Usuário inclui os sensores manualmente
Auto-Discovery Standart: Busca automática por sensores de hardware,
Disco, Processador, Memória, Uptime, Placa de Rede, portas de serviço de rede e serviços SNMP.
Auto-Discovery Detailed: Todas as opções anterior mais tunelamento e serviços/protocolos de rede.
Using Template: Adição de sensores baseado em um template de um dispositivo previamente criado
Como Adicionar um sensor

1. Após adicionar um dispositivo clique 2. Clique com o botão direito no dispositivo criado e selecione em “Add Sensor”
no ícone “Add Sensor” para adicionar de maneira manual
ou “Run Auto-Discovery” para seleção automática

3. Caso a forma de adição manual tenha sido selecionada uma janela irá abrir com todos os sensores
disponíveis e as opções de busca por nome e filtros por tipo de sensor, bastando apenas clicar no sensor.
4. Após selecionado, uma janela com a
confirmação das configurações irá aparecer, para
confirmar a configuração clique em “Continue”

5. Após a adição o sensor será processado (unknown ?) e após ser processado irá
mostrar o resultado da consulta como
OK (Verde), Warning (Amarelo) Error (Vermelho).
6. Caso o método de adição de sensores tenha sido o “Auto-Discovery” como explicado anteriormente
os sensores serão adicionados automaticamente, restando ao operador apenas selecionar o método de “Auto-Discovery “e se
um “Auto-Discovery” será agendado periodicamente para busca de sensores ou não (a opção padrão é Once)

7. O Auto-Discovery irá executar e processar os sensores


descobertos.

8. Ao concluir a procura de sensores os sensores serão processados e se houver um hostname


responsivo ele será adicionado ao nome do dispositivo colocando o nome inicia entre parênteses
Adicionar dispositivos baseados em template e clone.
1. Para criar um template clique com o botão direto do mouse 3 . Crie um novo dispositivo ou edite um já existente selecionando a opção
no dispositivo base e selecione “Create Device Template” “Automatic sensor creation using device template(s)” no grupo “Device Type” e selecione
o template criado, após isso um auto-dicovery será iniciado inserindo os sensores no dispositivo
2. Complete os campos abaixo como indicado,
caso seja necessário exclua os sensores indejados
no campo “Exclude Sensors”
4. Para criar um clone do dispositivo é necessário clicar com o botão direito no dispositivo escolhido e selecionar a opção “Clone”, após selecionar uma nova janela
Será aberta, sendo necessário renomear o dispositivo e alterar seu DNS/IP e escolher seu novo “Grupo/Subgrupo”.
Criação de Grupo de Auto-Discovery para Rede
1. Crie um novo grupo clicando com o botão direito do mouse no probe ou em 2. Após criar o grupo clique com o botão direito do mouse no grupo criado e selecione “Edit/Settings”
um grupo e selecione “Add Group” e prencha o campo “ group name”
com o nome do grupo ou edite um grupo já criado.
3. Na aba “group type” selecione qual método de auto-Discovery será
feito no grupo, Detailed, Standart ou via templates.

Após a seleção selecione de quanto em quanto tempo o auto-Discovery


será feito, como o PRTG buscará os endereços IP’s, como será o método
de resolução do hostname e se os devices já existentes serão
recolocados em um novo scan caso já existam.
Monitoria através de MIB
1. Baixar a ferramenta MIB Importer do endereço: https://www.paessler.com/tools/mibimporter 3. Após isso teremos uma lista com inúmeras entradas que representam um ou mais sensores,
e efetuar a instalação estas entradas podem ser manualmente selecionada ou toda a mib pode ser exportada,
para seleção parcial clique em “File/Enable Partial Selection” e selecione as entradas desejadas

2. Abrir o programa e importar a mib clicando em “File/Import MIB File e


importar o(s) arquivo(s) mib do dispositivo a ser monitrado
4. Após selecionar as entradas ou se decidir importar toda a MIB 5. Após exportar o arquivo ele deve ser colocado na pasta
o arquivo MIB deve ser transformado em um SNMP Library. “C:\Program Files (x86)\PRTG Network Monitor\snmplibs”

Para transformar toda a MIB é necessário clicar em “File/Save Complete OIDLIB AS” e nomear 6. Após importar o arquivo, adicione um sensor “SNMP Library” no dispositivo que os
o arquivo que será exportado. sensores serão importados, selecione na lista a seguir o arquivo importado na pasta e
selecione o sensores desejados, após clica em “continue” a seleção o sensores serão
Para transformar apenas as entradas selecionadas utilize a interface “Save As” na sessão inseridos no dispositivo automaticamente
“Selection For Partial OIDLIB” no canto interior do programa e nomear o arquivo a que será
exportado.
Abertura de tickets de suporte e Knowledge base
1. Há 2 maneira de se abrir um ticket de suporte, pelo próprio PRTG ou pelo site da Paessler. 2. Knowledge base:

No canto inferior direito há uma aba “Contact Paessler Support” clique nesta aba KB: http://kb.paessler.com/en/
e preencha as informações para abertura do chamado, após o envio um email de confirmação FAQS: https://www.br.paessler.com/support/faqs
da paessler será enviado ao e-mail inserido no chamado Manuais: https://www.br.paessler.com/support/manuals
Videos e Webinars : https://www.br.paessler.com/support/videos

A segunda meneira é abrir o chamado pelo


site,
acesse o endereço
https://www.br.paessler.com/support
clique em Suporte/Tiquete de Suporte e
prencha as informações para abertura do
chamado
Laboratório

 A ITGX tem 4 sites


– SNOC (rede 10.0.1.0/24)
– LAB1 (LAN 10.10.90.0/24 e 10.10.100.0/24, DMZ 192.168.0.0/24)
– LAB2
– LAB3
 Os sites estão interligados por VPNs com o SNOC (Estrela)
 Instale o PRTG no Servidor 10.0.1.254 e monitore Todo o ambiente
 Crie os Mapas
– Visão Geral, Infraestrutura (cada site), Segurança, Banco de Dados, Sistemas
(PRTG) usando o Sensor BP, Servidores, Facilities (Elétrico e Temperatura)
– Crie uma notificação Geral para o SNOC e uma especifica para cada grupo
(DBA, Segurança, Redes, Aplicação, Operação)
 Acesso via VPN e RDP, e via https://200.209.19.46/index.htm
Diferenciais ITGX

ITEM ITGX Outros

Profissionais Certificados em infraestrutura de Segurança


OK

Profissionais Certificados em Processos e Gestão de TI,


OK
Compliance e Segurança (CISSP, ITIL, CobIT, PMI, SOX)
Profissionais Certificados em Sistemas Operacionais, DBMS,
Rede (Microsoft, Oracle, VMWare, Linux, etc...) OK

Security and Operations Center com metodologia ITIL OK

OK
Sua melhor opção

Obrigado!!

Sergio Mirsky, CISSP


sergio.mirsky@itgx.com.br
(021) 98721-0468

Visite nosso site


www.itgx.com.br

Você também pode gostar