Uso de Algoritmos Genéticos para otimização de modelagem geoestatística aplicada à demanda por transportes
Resumo
Geralmente, dados relacionados à demanda por transportes não são independentes no espaço. Por esta razão, o uso de técnicas de estatística espacial torna-se relevante para aprimoramento de estimativas. A geoestatística está entre as técnicas que incorporam a dependência espacial em suas análises e o semivariograma é uma ferramenta indispensável para descrever e ilustrar a estrutura espacial de uma Variável Regionalizada. Muitas vezes, o cálculo e ajuste do semivariograma experimental são realizados visualmente, de acordo a familiaridade com os dados ou experiência do pesquisador, o que exige, sobretudo, tempo de dedicação às análises. A partir destas considerações, técnicas de otimização podem ser uma alternativa viável para cálculo e ajuste de semivariograma experimental. Diante disso, este trabalho objetiva avaliar a adequabilidade do uso de Algoritmos Genéticos (AG) para otimização da modelagem geoestatística aplicada à demanda por transportes. Outro ponto importante é a forma de representação de dados de transportes: quando disponíveis, dados desagregados, por domicílios, comprometem a qualidade dos modelos variográficos, devido à sua alta aleatoriedade espacial. Diante disso, outra importante contribuição deste estudo foi a implementação de um código em software livre para definir a dimensão de uma grade para agregação de dados pontuais. A implementação do AG permitiu a obtenção de inúmeros modelos variográficos de duas variáveis relacionadas à demanda por transportes, para dois diferentes suportes geográficos. Além disso, foi possível obter os intervalos mais frequentes dos parâmetros dos semivariograma com melhor fitness. Finalmente, uma proposta primária de análise da semivariância foi apresentada, a fim de validar os resultados obtidos pelo AG. A análise de mapas de semivariância permitiu verificar o comportamento estrutural das variáveis estudadas. Apesar da abordagem tradicional (mapas de semivariância e ajuste manual) apresentar algumas dissimilaridades quando comparada aos melhores semivariogramas provenientes do AG, as medidas de desempenho, obtidas através da validação cruzada, foram bem similares. Conclui-se que a otimização da modelagem geoestatística, através de AG, pode trazer contribuições importantes, relativas a maior facilidade de cálculo e ajuste, além de distribuição de parâmetros variográficos associados a soluções quase ótimas. Vale ressaltar que o código desenvolvido ao longo desta tese, disponível ao público, pode ser utilizado em qualquer área do conhecimento onde se verifique a existência de dependência espacial entre as observações.
Data related to travel demand are generally not independent in space. Due to this, using spatial statistics techniques is important for improving estimates. Geostatistics is among the techniques that incorporate spatial dependence in its analyses and the semivariogram is an indispensable tool to describe and illustrate the spatial structure of a Regionalized Variable. The calculation and fitting of the experimental semivariogram are often performed visually, according to the familiarity with the data or the researcher's experience, which requires, above all, time for the analyses. Based on these considerations, optimization techniques can be a viable alternative to calculate and fitting the experimental semivariogram. Therefore, this study aims to evaluate the adequacy of using Genetic Algorithms (GAs) to optimize geostatistical modeling applied to travel demand. Another important point is the way of representing travel data: when it is available, disaggregated data by households affect the quality of variographic models, due to their high spatial randomness. Therefore, another important contribution of this study was the implementation of a free software code to define the size of a grid for aggregation of point data. Implementing the GA enabled us to obtain numerous variographic models of two variables related to travel demand for two different geographical supports. In addition, the most frequent intervals of the semivariogram parameters could be obtained with better fitness. Finally, a primary proposal for semivariance analysis was presented in order to validate the results obtained by the GA. The semivariance analysis maps verified the structural behavior of the studied variables. In spite of traditional approach (semivariance maps and manual fit) to present some dissimilarities when compared to the best semivariograms from GA, the performance measures obtained through cross validation were very similar. It can be concluded that the geostatistical modeling optimization, through GA, can bring important contributions, related to making calculations and fits easier, as well as distribution of variographic parameters associated with almost optimal solutions. It is worth mentioning that the code developed throughout this thesis, available to the public, can be used in any area of knowledge where there is a spatial dependence between observations.