Design computationnel de protéines pour la prédiction de structure

Audrey Sedano-Pelzer

Résumé

Thanks to recent technological breakthroughs and the arrival of new generation sequencers, the amount of genomic data raises exponentially while the gap with the number of solved structures is widening. Ideally, computational 3D structure prediction should be possible with the only sequence information, even without any homology. Indeed, below 30% of sequence identity, similarity measurements are not efficient enough to detect homology. Therefore, it is necessary to implement new methods to take apart the twilight zone. Usually, for a given structure (and so a biological function), only a few existing sequences is known, and barely similar. Thus it is difficult to build a profile in order to find homologues without knowledge of the structure. How can we have databases of sequences for each structure ? The Computational Protein Design (CPD) try to answer this issue : if a fold is known, it is possible to predict every matching sequence ? The CPD consists of recognizing, among all compatible sequences with the wanted fold, those whom will confer to the protein the wanted function. Two steps are needed. The first one consists of calculating some energy matrix holding interaction energies between every pair of residues of the protein by allowing successively all types of amino acids in every possible conformation. The second one, or "optimization step", consists of exploring simultaneously spaces of sequences and conformations in order to determine the best combination of amino acids with the fold given at the beginning. First, the analysis of covariances of alignment positions of theoretical sequences has been managed. We succeeded in the implementation of a statistical method to locate positions that mutate together for a given structure. The profile built with all these theoretical sequences averages too strongly the amino acids data. That is why we improve the homologues searching using groups of sequences classified with the help of patterns located on these positions of covariance. To appreciate the quality of these predictions of theoretical sequences, we had to implement a selection protocol of the best mutated proteins in order to test them in vivo. Nonetheless how can we determine that a sequence is better that another ? What are the relevant criteria ? Thus, a set of descriptors have been chosen to sort the theoretical sequences on the basis of various criteria. Eventually, we got a dozen of sequences. Then, theses mutated proteins have been submitted to molecular dynamics simulations to assess their theoretical stability. For the most encouraging mutated proteins, experimentations took place to get a biological validation of the CPD model : over-expression, purification, structural determination... These protocols of analysis and validation seem to be good means will allow our team to test other mutant proteins in the future. So they can modify parameters during the generation by CPD and lean on experimental results to adjust them.

Grâce aux récents progrès technologiques et à l'arrivée des séquenceurs de nouvelle génération, la quantité de données génomiques croît exponentiellement, alors que l'écart avec le nombre de structures résolues se creuse. Dans l'idéal, on aimerait pouvoir prédire par informatique la structure 3D de n'importe quelle protéine à partir de l'information de séquence seule, même en l'absence d'homologie. En effet, en dessous de 30% d'identité de séquence, les mesures de similarité de séquences ne sont plus suffisantes pour détecter l'homologie. Il faut donc mettre en place d'autres méthodes afin de venir à bout de cette zone d'ombre. Pour une structure donnée (et donc une fonction biologique), on ne dispose souvent que d'une petite quantité de séquences natives y correspondant, et parfois assez peu identiques. Il est alors difficile de construire un profil de recherche d'homologues pour retrouver ces séquences dont on ne connaîtrait pas la structure. Alors comment disposer de bases de données de séquences plus conséquentes pour chaque structure ? Ainsi, le design computationnel de protéine (CPD) tente de répondre à cette problématique : si l'on connaît un repliement, est-il possible de retrouver l'ensemble des séquences qui lui correspondent ? Le principe du CPD consiste à identifier parmi toutes les séquences compatibles avec le repliement d'intérêt, celles qui vont conférer à la protéine, la fonction désirée. La procédure générale est réalisée en deux étapes. La première consiste à calculer une matrice d'énergie contenant les énergies d'interactions entre toutes les paires de résidus de la protéine en autorisant successivement tous les types d'acides aminés dans toutes leurs conformations possibles. La seconde étape, ou "phase d'optimisation", consiste à explorer simultanément l'espace des séquences et des conformations afin de déterminer la combinaison optimale d'acides aminés étant donné le repliement de départ. Une première phase d'analyse de covariances de positions d'alignements de séquences théoriques a été menée. Nous avons ainsi pu mettre au point une méthode statistique pour repérer des ensembles de positions qui muteraient ensemble pour une structure donnée. La construction d'un profil avec toutes ces séquences théoriques moyennant trop l'information en acides aminés, nous avons pu améliorer la recherche d'homologues en construisant plusieurs profils à partir de groupes de séquences classées grâce à des motifs sur ces positions considérées comme covariantes. Pour mieux appréhender la qualité de ces prédictions de séquences théoriques, il fallait mettre en place un protocole de sélection des meilleurs protéines mutantes afin de les tester in vivo. Mais comment déterminer qu'une séquence théorique est meilleure qu'une autre? Sur quels critères se baser pour les caractériser? Aussi, un ensemble de descripteurs a été choisi, permettant de trier sur plusieurs critères les séquences théoriques pour n'en choisir qu'une vingtaine. Ensuite, ces protéines mutantes ont été soumises à des simulations de dynamique moléculaire afin d'évaluer leur stabilité théorique. Pour quelques protéines mutantes plus prometteuses, nous avons réalisé des expériences de sur-expression, de purification et de détermination structurale, tentant d'obtenir une validation biologique du modèle de CPD. Ces protocoles d'analyse et de validation semblent être de bons moyens permettront à notre équipe de tester d'autres protéines mutantes dans l'avenir. Ils pourront ainsi modifier des paramètres lors de la génération par CPD et s'appuyer sur des résultats expérimentaux pour les ajuster.

Design computationnel de protéines pour la prédiction de structure

Computational protein design for structure prediction

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager