Resumen:
El propósito de esta tesis fue implementar modelos clasificadores de machine learning que puedan predecir eficazmente la capacidad molecular de atravesar la Barrera Hematoencefálica. Con el fin de acelerar el proceso de síntesis de nuevos fármacos para tratar enfermedades del Sistema Nervioso Central.
Esto se hizo a través del entrenamiento de 4 modelos clasificadores diferentes: KNN, SVM, Random Forest y Gaussian Naive Bayes. Para esto se usó la base de datos pública B3DB la cual contiene moléculas previamente etiquetadas, luego se realizó un proceso de selección de características aplicando Información Mutua y RFEcv de manera continua. Finalmente, los parámetros de los modelos fueron optimizados a través de la técnica grid search. Se crearon versiones de los modelos sin selección de características con fines comparativos.
Luego de este proceso se obtuvo como principal resultado un modelo Random Forest que logró un AUC de 0.96 y una Especificidad de 0.93. Además, se obtuvieron las importancias de características para el modelo anteriormente mencionado, en donde algunas de las principales variables fueron: TPSA, qed y NOCount.
A partir de estos resultados se puede concluir que los modelos sí pueden predecir eficazmente la permeabilidad de las moléculas. Además, algunos de los modelos generados superan levemente modelos generados por otros autores usando los mismos datos.
The purpose of this thesis was to implement machine learning classification models that can effectively predict the molecular ability to cross the blood-brain
barrier. The aim was to accelerate the process of synthesizing new drugs to treat diseases of the central nervous system.
This was done by training four different classification models: KNN, SVM, Random Forest, and Gaussian Naive Bayes. For this, the public B3DB database was
used, which contains previously labeled molecules. Then, a feature selection process was performed by continuously applying Mutual Information and RFEcv.
Finally, the model parameters were optimized using the grid search technique.
Versions of the models without feature selection were created for comparison purposes.
After this process, the main result was a Random Forest model that achieved an AUC of 0.96 and a specificity of 0.93. In addition, the feature importance for the
model was obtained, where some of the main variables were: TPSA, qed, and NOCount.
Based on these results, it can be concluded that the models can effectively predict the permeability of molecules. In addition, some of the models generated
slightly outperform models generated by other authors using the same data.
|