3º Seminário sobre Análise de Dados na Administração Pública
Chamada de Trabalhos para Apresentação
A terceira edição do Seminário sobre Análise de Dados na Administração Pública acontecerá em Brasília e tem como data os dias 26 e 27 de setembro de 2017.
O Seminário tem o objetivo de promover o compartilhamento de experiências e boas práticas relacionadas ao uso de técnicas de análise e mineração de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas.
O evento é organizado conjuntamente pelo Tribunal de Contas da União (TCU), pelo Ministério da Transparência e Controladoria-Geral da União (CGU) e pela Escola Nacional de Administração Pública (ENAP).
Assim, a presente chamada de trabalhos visa identificar palestrantes de instituições de controle, de entidades da administração direta e indireta, bem como do meio acadêmico e do terceiro setor, que tenham interesse em apresentar casos práticos e respectivos resultados, envolvendo a análise de dados da Administração Pública nas esferas Federal, Estadual ou Municipal.
Dentre os possíveis tópicos de interesse para o Seminário destacam-se, por exemplo, o uso de técnicas para:
a. detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas;
b. detecção de anomalias, abusos ou fraudes na arrecadação ou no gasto de recursos públicos;
c. priorização, por critérios de risco, urgência ou importância, de casos para auditoria, análise ou investigação pelo poder público;
d. otimização de processos repetitivos, como atendimento a demandas, triagem de denúncias ou confecção de peças processuais;
e. mineração de textos e outras fontes de dados não estruturados, para geração de insumos para processos de análise;
f. análise de dados aplicada ao contexto das Sistemas de Informação Georreferenciadas (SIG) e sensoriamento remoto;
g. análise de imagens e visão computacional;
h. análise de redes (network analysis);
i. análise de séries temporais.
É importante ter em mente que:
a. A apresentação deverá abordar, no mínimo, a motivação do uso de análise de dados, as técnicas e ferramentas utilizadas e os resultados atingidos (ou esperados, no caso de trabalhos ainda em curso);
b. Não serão aceitos trabalhos ou propostas de oficina que tenham como único objetivo a comparação entre ferramentas ou a divulgação de ferramentas específicas, gratuitas ou comerciais;
c. Não há exigência de que o trabalho tenha sido descrito em artigo científico ou realizado com rigor acadêmico, visto que o foco será no compartilhamento de experiências práticas;
d. Serão aceitos trabalhos realizados por entidades públicas, universidades, organizações do terceiro setor ou pessoas físicas independentes, desde que tenham sido utilizados dados do setor público para alcance de resultados de interesse público;
e. O evento será realizado no Instituto Serzedello Corrêa – Escola Superior do Tribunal de Contas da União, Setor de Clubes Sul, Trecho 3, Pólo 8, Lote 3, em Brasília, sendo que os eventuais custos de deslocamento, alimentação e hospedagem ficarão a cargo dos palestrantes ou de seus órgãos de origem; e
f. Além da audiência presencial, composta majoritariamente por servidores públicos federais, estaduais e municipais, o evento será transmitido ao vivo, pela Internet, com acesso livre a qualquer interessado.
Detalhes poderão ser conseguidos no portal do Seminário ou por meio do endereço brasildigital@tcu.gov.br.
Resposta
Priorize na caixa, logo abaixo do glossário, os assuntos para os quais você teria interesse em apresentar, como voluntário, ação educacional durante o Seminário. Essa ação educacional deverá ser de cunho prático, por exemplo, uma Oficina, e ter duração entre 2 e 4 horas.
Deverão ser priorizados até 5 assuntos por ordem decrescente de importância. Ao clicar sobre o assunto na caixa da direita, ele deverá migrar para a caixa da esquerda. O mais importante ficará em cima e o menos importante ficará em baixo.
GLOSSÁRIO
Web scraping: permite extrair e carregar dados não estruturados na web, geralmente em formato HTML, para dados estruturados que podem ser armazenados e analisados em uma base de dados local ou planilha.
Limpeza de dados (Data cleansing, data cleaning ou data scrubbing): é o processo de detectar e corrigir (ou remover) registros incorretos, incompletos ou imprecisos de um conjunto de registros, tabela ou banco de dados.
Estatística descritiva: é aquela que visa descrever quantitativamente as principais características de um conjunto de informações. Isso geralmente significa que as estatísticas descritivas, ao contrário de estatística inferencial, não são desenvolvidas com base na teoria da probabilidade. Algumas medidas que são comumente usadas para descrever um conjunto de dados são: medidas de tendência central e medidas de variabilidade ou dispersão. Medidas de tendência central incluem a média, mediana e moda, enquanto as medidas de variabilidade incluem o desvio padrão (ou variância), os valores mínimos e máximos das variáveis, curtose e assimetria (skewness).
Estatística inferencial (estatísticas indutiva): objetiva fazer afirmações a partir de um conjunto de valores representativo (amostra) sobre um universo. Tal tipo de afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Conceitos comumente utilizados na estatística inferencial são: distribuição amostral, intervalos de confiança e análise de variância.
Teste de hipóteses: é um método de inferência estatística baseado na análise de uma amostra, através da teoria de probabilidades, usado para avaliar determinados parâmetros que são desconhecidos numa população. São fundamentais os seguintes conceitos para um teste de hipótese: Hipótese nula (H0), Hipótese alternativa (H1), Erro do tipo I e Erro do tipo II.
Análise exploratória de dados: é uma abordagem para analisar conjuntos de dados visando resumir as suas principais características, muitas vezes com técnicas visuais. Há uma série de ferramentas que são úteis para a análise exploratória de dados, mas essa abordagem é caracterizada mais por uma atitude do que por meio de técnicas específicas. Alguns exemplos com técnicas visuais são: histogramas, box plot, gráfico multivariado, gráfico de Pareto e scatter plot.
Regressão linear: a regressão, em geral, trata da questão de se estimar uma variável dependente numérica. Essa regressão é "linear" pois constrói-se um modelo em que a vaiável dependente é uma soma ponderada das variáveis independentes.
Regressão logística: é um modelo de regressão em que a variável dependente é categórica, existindo dois níveis, ou seja, sendo binário. A regressão logística mede a relação entre a variável dependente categórica e uma ou mais variáveis independentes estimando probabilidades utilizando uma função logística.
Árvore de Decisão: é um modelo utilizado em mineração de dados e aprendizado de máquina, que explicita uma sequência de regras que permitem classificar observações em função de suas características. Trata-se de uma árvore, pois partindo de seu tronco (ou raiz) há um caminho único a ser percorrido por seus galhos até atingir uma folha final que determina a classificação a ser dada àquela observação.
Mineração de texto: refere-se ao processo de obtenção de informações importantes de um texto. Geralmente envolve o processo de estruturação do texto de entrada, de derivação de padrões dentro da estrutura de dados e, por fim, de avaliação e interpretação do resultado. Tarefas típicas de mineração de texto incluem categorização e agrupamento de texto, extração de conceito/entidade, produção de taxonomias granulares, análise de sentimentos, resumo de documentos e modelagem de relações entre entidades.
Clusterização (cluster analysis): clusterização é a tarefa de agrupar um conjunto de objetos de tal forma que os objetos no mesmo grupo, denominado cluster, são mais semelhantes entre si de acordo com determinado critério do que com os de outros grupos. A clusterização não é um algoritmo específico, mas o objetivo geral a ser alcançado. Isso pode ser conseguido por vários algoritmos que diferem significativamente entre si.
Detecção de anomalias (outliers detection): é a identificação de itens, eventos ou observações que não se conformam a um padrão esperado ou outros itens em um conjunto de dados. Anomalias também são referidas como casos desviantes, novidades, ruído, desvios e exceções. Várias técnicas de detecção de anomalias têm sido propostas na literatura . Algumas das técnicas mais populares são as seguintes: cluster analysis, técnicas baseadas em densidade (por exemplo, k-nearest neighbors).
Análise de séries temporais: compreende métodos de análise de dados de séries temporais, a fim de extrair estatísticas significativas e outras características dos dados. Análise de séries temporais traz explicações para o fato de que os pontos de dados tomados ao longo do tempo podem ter uma estrutura interna (como auto correlação, tendência ou variação sazonal) que devem ser levados em conta.
Análise de redes sociais (social network analysis): é uma estratégia para investigação de estruturas sociais por meio de grafos. Na análise de redes sociais são caracterizadas estruturas em termos de nós (atores, pessoas ou coisas dentro da rede) e laços que os conectam.
Sistema de Informação Geográfica (SIG): é um sistema projetado para capturar, armazenar, manipular, analisar, gerenciar e apresentar qualquer tipo de dados espaciais ou geográficos. Em um sentido geral, o termo descreve qualquer sistema de informação que integra, armazena, edita, analisa, apresenta e compartilha informações geográficas. As aplicações GIS permitem aos usuários criar consultas interativas, analisar informação espaciais , editar dados em mapas e apresentar os resultados de todas estas operações.
Avaliação de modelos (poder preditivo e overfitting): um modelo é uma simplificação de um fenômeno complexo usando apenas suas dimensões mais básicas, mas que ainda assim seja capaz de prever o comportamento geral desse fenômeno. Diferentes modelos podem ser construídos e seus desempenhos precisam ser avaliados e comparados quanto à acurácia de suas previsões para novas observações.
Para cada um dos temas escolhidos acima, descreva:
Speed networking é um formato de reunião projetado para acelerar contatos. A prática envolve várias pessoas que se reúnem em um único espaço para trocar informações de forma sistemática e concatenada. Os participantes cumprimentam-se mutuamente em uma série de breves intercâmbios durante um período de tempo definido. Durante uma interação, os participantes compartilharão seus antecedentes e objetivos profissionais na área de análise de dados.