Escolar Documentos
Profissional Documentos
Cultura Documentos
2014
Resumo
Abstract
Hugo Hofmannsthal
Sumário
1 Introdução ........................................................................................................... 7
2 Justificativa......................................................................................................... 8
3 Tecnologias em uso Atualmente .................................................................... 10
4 Reconhecimento de voz ................................................................................... 10
4.1 Como Funciona? ........................................................................................... 10
4.2 Eye-tracking e movimentos de pálpebra ..................................................... 12
4.2.1 Como Funciona? ........................................................................................ 13
4.2.1.1 Como os movimentos oculares são rastreados? ................................. 14
4.2.1.2 Como o piscar afeta a captura dos movimentos? ................................ 14
4.3 Captura de movimentos do corpo ............................................................... 14
4.3.1 Como funciona? ......................................................................................... 16
4.4 Joystick analógico de queixo....................................................................... 19
5. Propostas de solução ..................................................................................... 20
5.1 Complementação de Interface Gráfica ........................................................ 20
5.2 Entrada de dados .......................................................................................... 24
6 Conclusão ......................................................................................................... 26
7 Bibliografia ........................................................................................................ 28
1. Introdução
Hoje em dia podemos dizer que vivemos na “Era da Informação”. A grande
maioria das atividades humanas atualmente são suportadas, desenvolvidas e
mantidas com forte uso de computação e sistemas, desde uma simples transação
bancária até uma edição complexa de vídeo, criando o que podemos chamar de
uma certa ubiquidade, onipresença da tecnologia nas nossas vidas pessoais e
também em sociedade.
O computador é parte central deste processo, e dadas as necessidades de
cada uso específico da ferramenta, existem inúmeras formas de
interação/comunicação com a mesma e inserção de dados, desde o clássico uso
de digitação em teclado e uso de mouse para um usuário comum, até um designer
que utiliza uma mesa digitalizadora para ter melhor liberdade de movimento ao
realizar seu trabalho.
O que podemos perceber é que todas essas formas de interação foram
projetadas e desenvolvidas para pessoas que possuem pouco ou nenhum tipo de
deficiência física, mas especificamente deficiência motora, sendo que para estes
casos existem poucas alternativas, e que costumam apresentar problemas de
disponibilidade e custo.
Definindo melhor as dificuldades citadas acima, “Deficiência motora refere-
se à dificuldade ou até impossibilidade em mexer, controlar ou coordenar algum tipo
de movimento motor. Esta incapacidade pode ser transitória ou permanente e pode
ser congênita ou adquirida por acidente ou doença. ”
O tema é focado em casos de deficiência motora em graus mais graves,
como a tetraplegia, que é a paralisação dos movimentos do pescoço para baixo,
pelo fato de ser provavelmente o caso em que os portadores encontram as maiores
dificuldades em utilizar sistemas computacionais.
7
2. Justificativa
Desde que comecei a cursar o Bacharelado em Sistemas de Informação,
principalmente após o contato com a disciplina de Interação Humano-Computador,
sempre tive grande interesse e grande entusiasmo em entender e conhecer as
formas de interação já existentes, assim como os métodos que promovem
acessibilidade em TI para pessoas com diversos tipos de deficiência.
Tive oportunidade de conhecer programas leitores de tela que deficientes
visuais totais usam quase que constantemente, assim como alguns softwares que
promoviam reconhecimento de fala paras aqueles com dificuldade em digitação por
alguma limitação não-total dos movimentos das mãos. Porém após o conhecimento
de alguns casos de tetraplegia, fui levado a pensar em como essas pessoas
utilizavam, isso se é que utilizavam, algum sistema computacional, visto que
provavelmente para todas as outras coisas o seu nível de independência se
aproximaria do nulo, e assim como diversos outros aspectos de suas vidas, quando
surgia a necessidade do uso de algum sistema era exigido o auxílio e dedicação de
uma outra pessoa.
Este fato me levou a pensar que, como hoje possuímos tantos avanços
tecnológicos e estas pessoas ainda são completamente dependentes? Voltando
nossos olhares para a área de TI, sigla que significa Tecnologia da Informação,
como ainda não possuímos (ou possuímos pouquíssimos) recursos para promover
independência para essas pessoas, seja em qualquer grau?
A justificativa deste trabalho é promover uma base de conhecimento e
pesquisa que possa ajudar a reverter ou ao menos amenizar esta situação,
buscando formas possíveis e viáveis de inserção destas pessoas no nosso estilo de
vida moderno onde sistemas computacionais estão presentes praticamente em
todas as coisas e atividades.
8
3. Fundamentação teórica
9
4. Tecnologias em uso atualmente
10
as sílabas e é aplicado um método de busca para associar estas informações com
padrões de palavras a fim de encontrar semelhanças.
Para que o computador reconheça o som da sua voz juntamente com a
fonética da palavra pronunciada e efetue a aplicação desejada, ele precisa
encadear uma sequência de passos. Primeiro ele precisa digitalizar a fala que se
quer reconhecer. Para isso, ele utiliza um conversor analógico-digital que capta as
vibrações criadas pela sua voz e converte essas ondas em dados digitais.
Em seguida, aplica-se uma medida para cada uma das ondas captadas e o
som digitalizado é filtrado para separá-lo de ruídos e interferências. Então, efetua-
se uma computação das características que representam o domínio espectral
(frequências) contido na voz. Nessa etapa do processo, o som pode necessitar ser
sincronizado, pois as pessoas não costumam utilizar o mesmo tom e nem sempre
falam na mesma velocidade. Isso consiste em um ajuste com modelos de som já
armazenados na memória do classificador.
Então essa digitalização é separada em frações ainda menores, ou seja, sons
fonéticos não maiores do que uma sílaba. Em seguida, o programa compara os
sons captados com fonemas conhecidos e presentes em seu banco de dados que
correspondam ao idioma que o locutor tenha falado. Em outras palavras, é aplicado
um método de busca para associar as saídas com padrões de palavras e da voz de
quem as emitiu.
Por último, o sistema analisa o resultado e o compara com palavras e frases
conhecidas e, como resultado, ele identifica o que seu usuário disse e converte para
a funcionalidade desejada (texto em uma planilha, um comando, o reconhecimento
do usuário, etc.).
11
4.2 – Eye-tracking e movimentos de pálpebra:
Tendo em vista que o uso constante dos olhos possa causar desconforto, esta
não é a única proposta de ponteiro e funcionará em conjunto com idéias e
dispositivos que serão discutidos a seguir.
12
4.2.1 - Como funciona?
Figura 1 Figura 2
14
Se transportarmos esta idéia para o nosso foco de trabalho, inicialmente pode
soar estranho, mas se analisarmos o que estes pacientes tem disponível para
interagir com o computador, vemos que o pescoço e seus movimentos podem ser
sim capturados e interpretados como comandos, como por exemplo no jogo de
corrida Forza 5 onde o jogador olha pelas janelas do carro usando a própria cabeça
e nenhum comando manual.
Dentre as possibilidades de uso em nosso contexto, temos os movimentos
listados a seguir assim como suas propostas de comando:
15
Movimento da face para cima e para baixo: ao movimentar a face para
cima ou para baixo, podemos propor comandos simples como direcional,
slider vertical e aumento ou diminuição de intensidade;
Usaremos como base a ferramenta Kinect, criada pela Microsoft para seu
console de videogame Xbox. Com sensores de movimento aliados a uma câmera
de detecção 3D, o aparelho reconhece as movimentações do corpo com uma
ótima precisão. O aparelho é composto basicamente por 3 partes:
16
Sensores de profundidade 3D: usa em conjunto um projetor infravermelho e um
sensor CMOS monocromático para projetar o ambiente em 3D e perceber as suas
modificações. Devido à natureza dos sensores, não é necessária iluminação para
que eles funcionem, o que significa que o Microsoft Kinect “enxerga” a sala mesmo
no escuro;
17
aprendizado de algoritmo, desenvolvida por Kamie Shoutton, pesquisador da
Microsoft Research Cambridge na Inglaterra.
A camada de software do Kinect é o componente essencial para dar
significado ao que o hardware detecta. Quando você inicia Kinect, ele lê o layout do
seu quarto e configura o espaço de jogo você vai estar se movendo dentro. Então,
o Kinect detecta e rastreia 48 pontos sobre o corpo de cada jogador, mapeando-os
para uma reprodução digital de forma que o corpo do jogador e estrutura do
esqueleto, incluindo detalhes faciais.
18
4.4 – Joystick analógico de queixo:
19
5. Propostas de solução
20
público-alvo usaria ferramentas diferentes e adaptadas, em um ambiente que não
foi preparado para isso pois, é necessária uma quantidade e precisão de
movimentos que, como consequência das limitações destes pacientes. Não seria
possível de reproduzir sem grandes transtornos ergonômicos e desconfortos.
Proponho aqui a criação de um software que atue sobreposto à área de
trabalho do sistema operacional como um todo, funcionando como uma “capa”
cobrindo todas aplicações imediatamente abaixo dele, dividindo a tela em quatro
quadrantes por padrão, podendo ser configuráveis de acordo com a preferência dos
usuários.
21
O controle de ponteiro poderá ser dado dentre as alternativas de ferramenta
que falamos antes: movimentos oculares ou pelo joystick de queixo. Entretanto,
também devido a questões de uso contínuo, este software de capa também terá
uma adaptação ao uso de ponteiro, promovendo alternativas ágeis de troca de foco
entre controles oferecidos por páginas web e softwares em geral. Colocaremos em
foco o quadrante que mostra os campos do formulário e a interação do ponteiro
(este representado pelo ponto preto), conforme figura a seguir:
22
Figura 8 – Controles do formulário devidamente identificados próximos ao ponteiro
23
5.2 – Entrada de dados
24
combinações de vogais e consoantes e após isso, aprendendo e oferecendo as
palavras mais utilizadas pelo usuário, um algoritmo oferece palavras completas
relacionadas a tais sílabas e letras até que o usuário consiga identificar a palavra
que gostaria de escrever. Como por exemplo na imagem a seguir, podemos ver um
exemplo caso a leta L fosse selecionada no teclado, apareceriam as sílabas de La
até Lu e, logo após a sílaba Li ter sido selecionada, são mostradas 3 opções de
palavra e “Literatura” é escolhida como resultado.
Tal algoritmo também pode ser acionado via voz, porém, como temos o
problema da imprecisão, o resultado processado é gerado e colocado no campo de
texto, porém ao mesmo tempo são oferecidas palavras semelhantes a ele de forma
a melhorar a velocidade de digitação como um todo. Tal metodologia seria
desenvolvida de modo a mostrar sempre as palavras mais utilizadas pelo usuário
ou dentro dos assuntos mais abordados e/ou pesquisados pelo próprio,
classificando em caráter de prioridade palavras dentro de um dicionário.
Ao longo do tempo, tal algoritmo criaria este banco de dados de palavras e
este poderia vir a alterar até a forma com que o teclado é apresentado
dinamicamente, tentando organizar as letras de acordo com a provável próxima letra
tendo como foco as vogais, pois são as letras mais comumente utilizadas, podendo
tomar um aspecto gráfico como o mostrado a seguir:
25
Figura 10 – Teclado virtual dinâmico hipotético com letras organizadas em torno das vogais
Na imagem podemos ver letras organizadas de forma lógica ao redor das vogais,
sendo as letras mais próximas as mais “prováveis” a serem digitadas pelo histórico
de entrada de dados do usuário.
Tais propostas e seus prováveis resultados ainda ficariam muito atrás em
eficiência e eficácia se comparados ao um teclado comum, porém a chance de se
tornar uma alternativa completamente viável a nosso público alvo é alta.
6. Conclusão
26
possibilidades que mostramos aqui, se aplicadas a usuários não-desabilitados,
podem criar outras perspectivas de interação com máquinas, ao deixar os braços
livres para outros comandos, o uso dos comandos de olho e pescoço possam talvez
serem utilizados como complemento a algum comando mais complexo que já exista
a fim de torná-los mais simples e efetivos.
Além de proporcionar independência no uso de sistemas para o nosso
público-alvo e tornando possível a realizações de atividades cotidianas, pensando
a longo prazo, podemos transformá-los em profissionais capacitados a atuar no
mercado de trabalho de Tecnologia da Informação, que já apresenta escassez
profissional, além de abrir portas para diversas outras áreas pois, como vivemos
uma realidade em que os computadores apresentam uma certa ubiquidade, ou seja,
estão presentes progressivamente em praticamente tudo que utilizamos, desde
estações de trabalho, celulares até aparelhos de marca-passo e outros
equipamentos médicos.
Hoje tudo tende a se tornar computação, tudo tende a se manter conectado
e, ao inserirmos estas pessoas a esta realidade, damos a elas a oportunidade de
sair de um estado de total limitação e dependência para também estarem
conectadas e aptas a uma vida o mais próximo da comum possível.
27
8. Bibliografia
28