Please login first
Generación de modelos predictivos de péptidos anti-angiogénicos para el proyecto CICLOGEN
* ,
1  Department of Computer Science and Information Technologies, Faculty of Computer Science, University of A Coruña, CITIC. Campus Elviña s/n, 15071, A Coruña, Spain

https://doi.org/10.3390/mol2net-06-06950 (registering DOI)
Abstract:

El cribado y el modelado in silico son actividades críticas para la reducción de los costes
experimentales. También aceleran notablemente la investigación y refuerzan el marco teórico,
permitiendo así a los investigadores cuantificar numéricamente la importancia de un
determinado subconjunto de información. Por ejemplo, en campos como el cáncer y otras
enfermedades de alta prevalencia, es crucial disponer de un método de predicción fiable. El
objetivo de este trabajo es clasificar las secuencias peptídicas en base a su actividad anti-
angiogénica para entender los principios subyacentes a través del aprendizaje automático. En
primer lugar, las secuencias peptídicas fueron convertidas en tres tipos de descriptores
moleculares numéricos basados en la composición de aminoácidos. Se realizaron diferentes
experimentos con los descriptores y se fusionaron para obtener resultados de línea de base para
el desempeño de los modelos, particularmente de cada subconjunto de descriptores
moleculares. Se aplicó un proceso de selección de características para reducir la dimensionalidad
del problema y eliminar las características ruidosas, que están muy presentes en los problemas
biológicos. Después de un robusto diseño experimental de aprendizaje de máquina en igualdad
de condiciones, se superó estadística y significativamente el mejor modelo antiangiogénico
previamente publicado con un modelo lineal generalizado (glmnet), alcanzando un valor medio
de AUC superior a 0,96 y con una precisión de 0,86 con 200 descriptores moleculares, mezclados
de los tres grupos. De acuerdo con nuestros hallazgos, los péptidos de actividad antiangiogénica
están fuertemente asociados con las secuencias de aminoácidos SP, LSL, PF, DIT, PC, GH, RQ,
QD, TC, SC, AS, CLD, ST, MF, GRE, IQ, CQ y HG.

Keywords: Cancer, Machine Learning, Characteristics Selection
Comments on this paper
Guillermin Agüero-Chapin
Peptide descriptors
Hi Dear Authors

I would like to know what kind of compositional peptide descriptors were use?... dipeptide, tripeptide composition?. The selection of the negative set is crucial for the development of machine learning-based models? What negative set did you use for building the model? Thanks in advance

Jose Liñares-Blanco
Jose Liñares-Blanco
Hi Guillermin,

For this work we have used mono-, di- and tripeptide composition descriptors. We used Rcpi package to obtain these descriptors (https://bioconductor.org/packages/release/bioc/html/Rcpi.html).

Regarding the negative training set, in these cases, where the function of the peptides to be predicted is very specific (anti-angiogenic function in our case) a random sampling of peptides that can be found in public databases (PubChem, ChemBL, etc.) is usually collected. We obtained the training set from a public dataset. You can see in depth the description of the creation of the dataset in this article. (https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0136990)


I hope it was helpful

Brenda de la Caridad Fundora Ortiz
Técnicas de validación
Estimados autores,

Me ha resultado muy interesante el estudio propuesto, tanto por la utilidad práctica que presenta como por la robustez del trabajo quimioinformático realizado. No obstante, me resultaría interesante conocer ¿Qué técnica(s) de validación han empleado? y además si pretenden realizar o han realizado estudios experimentales que, unido a los resultados obtenidos con el modelo propuesto permitan trazar una estrategia de diseño de péptidos con actividad anti-angiogénica con perspectivas al diseño de fármacos.

Gracias de antemano
Jose Liñares-Blanco
Hola Brenda,

En primer lugar, gracias por sus comentarios. Para las técnicas de validación hemos utilizado un método de Cross Validation pareado. En concreto un Holdout (2/3 train y 1/3 test) para la búsqueda de los mejores hiperparámetros de los modelos y posteriormente 5 Repeticiones de un 10-fold CV para validar el modelo de forma general. Para mayor profundidad y detalle de la metodología utilizada, copio enlace a la publicación científica original (https://www.nature.com/articles/s41598-018-33911-z).

Este trabajo se ha diseñado desde un punto de vista in silico solamente. La validación experimental le daría, sin lugar a duda, un valor añadido al trabajo, pero de momento no disponemos de recursos para llevarla a cabo.

No dude en volver a contactar si fuese necesario mayor profundidad en la respuesta.


Un cordial saludo



 
 
Top