Vivemos na era do Big Data! Com a popularização da internet e vários outros avanços tecnológicos, estamos coletando uma quantidade de dados sem precedentes. Diariamente ao acessarmos nossas redes sociais ou nossos sites de compra, estamos fornecendo uma série de informações para os provedores destes serviços, referentes a nossa localização, rede de contatos, preferências de consumo, volume de gastos, etc. Uma pergunta que vem ocupando a mente de várias pessoas, sobretudo na computação e no marketing, é como usar estes dados para fazer predições e oferecer serviços personalizados. Na área da saúde, a dramática redução no custo do sequenciamento e de outras técnicas de alto rendimento (high throughput), bem como a exigência por estudos cada vez maiores e mais abrangentes, também elevou radicalmente o volume de dados produzido. E isto e só começo, com a chamada "internet das coisas" nossas roupas e acessórios passarão a coletar, processar e transmitir uma série de dados biométricos, os quais poderão ser utilizados para monitorar nossa saúde e realizar predições. Neste contexto, outro termo que vem ganhando espaço e o Data Science, definido por Hilary Manson como uma intersecção entre ciência da computação, estatística, engenharia e "hacking". Conhecimento especifico da área de interesse, como genética ou imunologia, completa o perfil do "data scientist". Certamente existe um pouco de moda e alguns exageros, mas conforme defende o Dr. Michael Franklin da
Universidade da Califórnia (Berkeley), a Data Science esta se consolidando como uma área independente, atraindo investimentos, gerando oportunidades e direcionando as Universidades para a criação de currículos orientados a esta temática.
Hans Rosling: Dados sociais e demográficos de 200 países ao longo de 200 anos,
apresentados em 4 minutos.
Embora usualmente definido como um "problema", Michael Franklin argumenta que o principal aspecto de se trabalhar com Big Data são justamente as oportunidades únicas que "emergem" dos dados. Padrões que não poderiam ser observados utilizando-se amostras menores. Na área da epidemiologia, por exemplo, trabalhos recentes abordaram o uso de mecanismos de busca e redes sociais para fazer predições biomédicas. Em um exemplo, buscas na Wikipedia (Figura 1) foram utilizadas para predizer surtos de gripe com quase um mês de antecedência (Generous et. al, 2014). Em outro trabalho, postagens do Twitter foram utilizadas para medir os "sentimentos" das pessoas em relação a vacina da gripe (Influenza A, H1N1), sendo então capazes de predizer quais regiões seriam mais afetadas por casos de gripe (Salathé et. al, 2014).
Figura 1. Gráficos apresentando dados epidemiológicos oficiais e o modelo (nowcast) baseado no tráfego de artigos da Wikipedia, em um período de 3 anos (Generous et. al, 2014).
Mas os dados usualmente não falam sozinhos, é preciso saber extrair as informações desejadas. Dentre as ferramentas empregadas neste processo, os métodos de aprendizado estatístico (ou machine learning) tem se demonstrado particularmente interessantes. No campo da imunologia, por exemplo, estas ferramentas já estão sendo aplicadas para identificar alvos vacinais, descrever o mapa transcricional de linfócitos T CD8+ ao longo das etapas da resposta celular e inclusive para desvendar bases imunológicas no Alzheimer.
Um estudo de 2012 tentou caracterizar o perfil do "analista de dados", realizando entrevistas com 35 profissionais que realizavam esta função em diferentes áreas, incluindo finanças, pesquisa/saúde, redes sociais, marketing e varejo. Desconsiderando-se as limitações do estudo (tamanho amostral e distribuição geográfica), é interessante observar que estes profissionais foram ultimamente classificados em apenas três categorias: hacker, scripter e application user. Apesar da pressuposta similaridade quanto a área de atuação, os profissionais de cada grupo se diferenciavam bastante quanto ao perfil computacional e o tipo de tarefa desempenhada. Enquanto os hackers apresentavam maior familiaridade com diferentes linguagens de programação e manipulação dos bancos de dados, os scripters conseguiam realizar análises estatísticas mais complexas (se restringindo ao uso de pacotes como R e Matlab). Os application users, por outro lado, se limitavam à análise de planilhas e ao uso de pacotes como SAS/JMP e SPSS, contando com o apoio de uma equipe de TI para fornecer os dados já no formato adequado. Além de refletir esta diversidade de profissionais e de perfis, em um mercado que claramente vive um período de expansão, o estudo também salientou a necessidade de novas ferramentas para visualização. A visualização é essencial não apenas na apresentação dos resultados, mas também no momento de "conhecer" os dados brutos. Ela facilita a interpretação do material de estudo e valoriza aspectos em que os humanos ainda superam as máquinas, como a capacidade de estabelecer relações e formular hipóteses. Existem testes estatísticos e modelos matemáticos para todos os gostos, mas em muitos casos eles se tornam inúteis caso não haja uma pergunta objetiva a ser respondida ou uma intuição sobre o comportamento dos dados. Neste contexto, o pesquisador sueco Hans Rosling (vídeo acima) tem sido um grande advogado do poder da estatística e da importância da visualização.
Pra quem pretende ingressar na área, uma ótima pedida é o livro An introduction to Statistical Learning with applications in R. O livro apresenta uma linguagem acessível, mesmo para quem não tem base matemática ou computacional, além de uma série de exemplos e exercícios utilizando o pacote R. Uma das vantagens deste pacote é justamente a implementação de uma série de recursos para fácil manipulação e visualização dos dados.
Debate com Hilary Manson e outros especialistas sobre as perspectivas e as oportunidades do Big Data.
Post de Dinler Amaral Antunes
Complimentary Postdoctoral Research Associate at the Kavraki Lab.
Department of Computer Science - Rice University (Houston, TX).
Nenhum comentário:
Postar um comentário