
#11. Quantificação da incerteza em ML com Chris Molnar (três fontes)
No se pudo agregar al carrito
Add to Cart failed.
Error al Agregar a Lista de Deseos.
Error al eliminar de la lista de deseos.
Error al añadir a tu biblioteca
Error al seguir el podcast
Error al dejar de seguir el podcast
-
Narrado por:
-
De:
Acerca de esta escucha
As três fontes, majoritariamente de Christoph Molnar e Timo Freiesleben, oferecem uma visão aprofundada sobre a quantificação da incerteza, as filosofias de modelagem e a aplicação de aprendizado de máquina em ciência.
A Predição Conformal (CP) é apresentada como uma metodologia para quantificar a incerteza de modelos de ML com garantias probabilísticas, notadamente a cobertura garantida do resultado verdadeiro, que é geralmente marginal (em média). Ela é agnóstica ao modelo, independente de distribuição e não requer retreinamento, sendo aplicável a classificação (conjuntos de predição), regressão (intervalos de predição), e outras tarefas como séries temporais ou detecção de anomalias. O processo central é a calibração com dados separados do treinamento, definindo um limiar de não-conformidade. É crucial que os dados sejam exchangeable para a garantia de cobertura. Métodos de classificação incluem Score method (simples, não adaptativo), Adaptive Prediction Sets (APS) (adaptativo, com opção randomizada para cobertura mais exata), Regularized APS (RAPS) (para conjuntos menores em casos com muitas classes), e abordagens para cobertura por grupo ou classe. Para regressão, há a Conformalized Mean Regression (intervalos de tamanho fixo, não adaptativo) e a Conformalized Quantile Regression (CQR) (intervalos adaptativos). A escolha dos parâmetros (alpha) e do tamanho da calibração afeta o trade-off entre tamanho do conjunto e cobertura. A biblioteca MAPIE em Python é utilizada para implementação.
O conceito de "mentalidades de modelagem" explora as diversas abordagens para modelar o mundo, vistas como arquétipos, mas que podem se misturar na prática. A Modelagem Estatística (Frequentismo, Bayesianismo, Likelihoodism) foca na inferência de parâmetros do processo de geração de dados através de distribuições de probabilidade. O Frequentismo interpreta probabilidade como frequência de longo prazo em ensaios repetidos, utilizando testes de hipóteses e intervalos de confiança para inferência sobre parâmetros fixos e desconhecidos. O Bayesianismo trata parâmetros como variáveis aleatórias com distribuições prévias, atualizadas para obter distribuições a posteriori, que expressam incerteza de informação e são usadas para simular previsões. O Aprendizado de Máquina prioriza a performance da tarefa e previsão de novos dados, abrangendo Aprendizado Supervisionado (previsão/classificação com dados rotulados, focado em generalização e combate ao overfitting via divisão treino/validação/teste), Não Supervisionado (identificação de padrões ocultos como agrupamento e redução de dimensionalidade), por Reforço (interação com ambiente via recompensas), e Deep Learning (redes neurais profundas para aprendizado de representações e transfer learning). A Inferência Causal busca identificar relações de causa e efeito, crucial para intervenções e compreendida via gráficos acíclicos dirigidos (DAGs). A abordagem do "modelador em forma de T" (profundidade em algumas mentalidades, conhecimento amplo em outras) é proposta para navegação eficaz no campo complexo da modelagem.
A integração do ML Supervisionado na pesquisa científica exige atenção à quantificação da incerteza e robustez para garantir modelos confiáveis. A generalização (capacidade do modelo de funcionar bem em dados não vistos) é fundamental, avaliada através da divisão de dados (treinamento, validação, teste) e técnicas como validação cruzada. A Predição Conformal é explicitamente mencionada como uma abordagem para melhorar a quantificação da incerteza e a robustez.