Información

G4. Predicción de la estructura de la proteína de membrana: biología

G4. Predicción de la estructura de la proteína de membrana: biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Hasta ahora hemos discutido proteínas predominantemente globulares que son solubles en agua. En la naturaleza se encuentran dos clases principales de proteínas de membrana.

  • proteínas de la membrana periférica: proteínas solubles en agua que se unen de forma reversible y no covalente a la membrana a través de atracciones electrostáticas entre los grupos de cabeza polar cargados de los fosfolípidos y la proteína. Estas proteínas a menudo se pueden liberar de la membrana mediante la adición de un alto contenido de sal, ya que a menudo son atraídas a la bicapa por interacciones electrostáticas entre grupos de cabeza de fosfolípidos cargados y grupos polares / cargados en la superficie de la proteína.
  • Proteínas integrales de membrana: en realidad se insertan en la bicapa. Estos pueden liberarse de la membrana y solubilizarse eficazmente mediante la adición de anfífilos de cadena sencilla (detergentes) que forman una micela mixta con la proteína integral de la membrana. Los detergentes no iónicos (Trition X-100, octilglucósido, etc.) se utilizan a menudo en la purificación de proteínas de membrana. Los detergentes iónicos (como el SDS) no solo solubilizan las proteínas integrales de la membrana, sino que también las desnaturalizan.

Figura: Tipos de proteínas de membrana

En algunas de estas proteínas integrales de membrana, están presentes grandes dominios extracelulares e intracelulares de la proteína, conectados por las regiones intramembrana. La región de extensión intramembrana a menudo consta de una única hélice alfa o de 7 regiones helicoidales diferentes que zigzaguean a través de la membrana. Estas secuencias transmembrana se pueden determinar fácilmente mediante cálculos de hidropatía. Por ejemplo, considere la rodopsina de proteína bovina de membrana integral. Su secuencia de 348 aminoácidos (en código de una sola letra) se muestra a continuación:

MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIMLGFPINFLTLY
VTVQHKKLRTPLNYILLNLAVADLFMVFGGFTTTLYTSLHGYFVFGPTGCNLEGFFATLG
GEIALWSLVVLAIERYVVVCKPMSNFRFGENHAIMGVAFTWVMALACAAPPLVGWSRYIP
EGMQCSCGIDYYTPHEETNNESFVIYMFVVHFIIPLIVIFFCYGQLVFTVKEAAAQQQES
ATTQKAEKEVTRMVIIMVIAFLICWLPYAGVAFYIFTHQGSDFGPIFMTIPAFFAKTSAV
YNPVIYIMMNKQFRNCMVTTLCCGKNPLGDDEASTTVSKTETSQVAPA

Los cálculos del gráfico de hidropatía de rodopsina muestran que contiene siete hélices transmembrana que se enrollan a través de la membrana en forma de serpentina.

Figura: Gráfico de hidropatía de rodopsina


Figura: siete hélices transmembrana


Resultados de la hidropatía por rodopsina

No.Terminal Nregión transmembranaTerminal Cescribelargo
140LAAYMFLLIMLGFPINFLTLYVT62PRIMARIO23
271PLNYILLNLAVADLFMVFGGFTT93SECUNDARIO23
3113EGFFATLGGEIALWSLVVLAIER135SECUNDARIO23
4156GVAFTWVMALACAAPPLVGWSRY178SECUNDARIO23
5207MFVVHFIIPLIVIFFCYGQLVFT229PRIMARIO23
6261FLICWLPYAGVAFYIFTHQGSDF283PRIMARIO23
7300VYNPVIYIMMNKQFRNCMVTTLC322SECUNDARIO23

En resumen, las gráficas de hidropatía son útiles para encontrar regiones enterradas en proteínas solubles en agua, hélices transmembrana en proteínas integrales de membrana, así como tramos cortos de aminoácidos polares / cargados que podrían formar bucles de superficie reconocibles por anticuerpos del sistema inmunológico. El tamaño de la ventana utilizado en los gráficos de hidropatía obviamente afectaría los resultados calculados. Las ventanas de 20 aminoácidos son útiles para determinar las hélices transmembrana, mientras que las ventanas de 5-7 aminoácidos se utilizan para encontrar sitios hidrófilos expuestos a la superficie.

Las proteínas de membrana pueden solubilizarse mediante la adición de anfífilos de cadena sencilla (detergentes). Las colas no polares de los detergentes interactúan con el dominio transmembrana hidrófobo de la proteína de membrana formando una estructura similar a una micela "mixta". Los detergentes no iónicos como Triton X-100 y octil-glucósido se utilizan a menudo para solubilizar proteínas de membrana en su estado casi nativo. Por el contrario, los detergentes iónicos como el dedecilsulfato de sodio (con un grupo de cabeza cargado negativamente) desnaturalizan las proteínas durante el proceso de solubilización. Para estudiar las proteínas de membrana en un entorno más nativo, las proteínas solubilizadas por detergente no iónico se pueden reconstituir en estructuras de liposomas bicapa utilizando métodos similares a los del Laboratorio 1 en el que preparó vesículas unilaminares grandes (LUV) encapsuladas con colorante. Sin embargo, puede resultar difícil estudiar los dominios intra y extracelulares de las proteínas de membrana en los liposomas, dado que uno de esos dominios está oculto dentro del liposoma. Sligar desarrolló recientemente una técnica novedosa que elimina esta barrera. Creó un disco de proteína anfifílica con una abertura en el centro. La abertura interior está revestida con residuos no polares, mientras que la superficie exterior del disco es polar. Cuando los discos se agregaron a los fosfípidos, se formaron pequeñas bicapas dentro del disco. Las proteínas de membrana como el receptor adrenérgico b-2 podrían reconstituirse en las bicapas del nanodisco, permitiendo la exposición al disolvente tanto de los dominios intracelulares como extracelulares de la proteína receptora.

Figura: Nanodisco con proteína de membrana

  • Escalas de hidropatía determinadas experimentalmente
  • Características estructurales de la secuencia de proteínas
  • Recursos de proteínas de membrana
  • Proteínas de membrana de estructura tridimensional conocida
  • 57 predictores de escala de aminoácidos diferentes de ExPASy

G4. Predicción de la estructura de la proteína de membrana: biología

Se han detectado estructuras de ADN endógeno G-quadruplex (G4) en células humanas y se han mapeado en ADN genómico y en un contexto de cromatina endógena mediante la adaptación de enfoques de secuenciación de próxima generación, para revelar paisajes G4 específicos del tipo y estado celular y un vínculo fuerte de G4 con transcripción elevada. Las pequeñas moléculas sintéticas y los anticuerpos diseñados han sido vitales para sondear la existencia y las funciones de G4 en las células.

Se ha descubierto que varias proteínas endógenas interactúan con el ADN G4, incluidas las helicasas, los factores de transcripción y los remodeladores epigenéticos y de cromatina. Los estudios estructurales y funcionales detallados proporcionaron una nueva visión de las interacciones de la proteína G4 y revelaron una posible participación de los G4 en una variedad de procesos biológicos.

Varias nuevas líneas de evidencia sugieren que los G4 juegan un papel en el crecimiento y la progresión del cáncer. Se pueden detectar más G4 en estados de células cancerosas en comparación con el estado normal, lo que convierte a G4 en objetivos muy interesantes en el descubrimiento de fármacos. Estudios recientes han comenzado a explorar el potencial de letalidad sintética y modulación global de la transcripción de genes del cáncer.

Las secuencias de ADN ricas en guanina se pueden plegar en estructuras secundarias no canónicas de cuatro hebras llamadas G-quadruplex (G4). Inicialmente, los G4 se consideraron una curiosidad estructural, pero la evidencia reciente sugiere su participación en funciones clave del genoma, como la transcripción, la replicación, la estabilidad del genoma y la regulación epigenética, junto con numerosas conexiones con la biología del cáncer. En conjunto, estos avances han estimulado la investigación que explora los mecanismos G4 y las consiguientes oportunidades de intervención terapéutica. Aquí, proporcionamos una perspectiva sobre la estructura y función de G4 con énfasis en moléculas clave y avances metodológicos que permiten el estudio de estructuras G4 en células humanas. También examinamos críticamente los conocimientos mecanicistas recientes sobre la biología G4 y los socios de interacción de proteínas y destacamos las oportunidades para el descubrimiento de fármacos.


G4. Predicción de la estructura de la proteína de membrana: biología

Colocación de moléculas en mapas de densidad electrónica de baja resolución

Una técnica creciente en la determinación de la estructura de las proteínas es la microscopía crioelectrónica. Cryo-EM proporciona mapas de densidad de electrones de baja resolución (

8 y Aringngstr y oumlm). A medida que estos datos se vuelven más precisos, puede utilizar estos datos no solo para determinar la estructura general de los complejos de proteínas, sino también para determinar los elementos de la estructura secundaria y su ensamblaje en la estructura terciaria de una proteína. El campo exitoso de la predicción de la estructura de la proteína ab initio ca más.

BCL :: Jufo: Predicción simultánea de estructura secundaria de proteínas y tramos transmembrana
Un primer paso hacia la predicción de la estructura terciaria de las proteínas es la identificación de los elementos de la estructura secundaria de la secuencia. Además, la identificación de tramos transmembrana es necesaria para las proteínas de membrana.

El objetivo de este proyecto es predecir simultáneamente la estructura secundaria y los tramos transmembrana con una sola herramienta. El fundamento de este enfoque es la hipótesis de que ambos fenómenos están interrelacionados: más.

La investigación en nuestro laboratorio busca fusionar esfuerzos computacionales y experimentales para investigar proteínas, las moléculas fundamentales de la biología y sus interacciones con sustratos de moléculas pequeñas, terapias o sondas. Desarrollamos métodos computacionales con tres grandes ambiciones en mente.

A) Para permitir la elucidación de la estructura de la proteína de las proteínas de la membrana, el objetivo principal de la mayoría de los tratamientos y grandes complejos macromoleculares como los virus.
B) Diseñar proteínas con estructura y / o función novedosas para explorar enfoques novedosos para la terapéutica de proteínas y profundizar nuestra comprensión de las vías de plegamiento de proteínas.
C) Conocer cuantitativamente la relación entre estructura química y actividad biológica para diseñar fármacos más eficientes y específicos.

Para nuestro éxito es crucial la validación experimental de nuestros enfoques computacionales que seguimos en nuestro laboratorio o en colaboración con otros científicos.

Las aplicaciones de investigación actuales se centran en nuevos enfoques para a) el desarrollo de fármacos y sondas para trastornos y enfermedades neurodegenerativas como la esquizofrenia, el Alzheimer y el Parkinson, b) comprender los determinantes estructurales de la unión de los antidepresivos a los transportadores de neurotransmisores, c) la arritmia cardíaca causada por la interacción compleja de la regulación de los canales de potasio y las interacciones farmacológicas, d) resistencia a múltiples fármacos en células cancerosas y bacterianas relacionadas con proteínas transportadoras de múltiples fármacos, ye) base estructural de las infecciones virales y la actividad de los anticuerpos.

¡Eli McDonald ha sido galardonado con una Beca de Mejora de la Disertación del Instituto de Liderazgo para Graduados Russell G. Hamilton! El Graduate Leadership Institute selecciona cada año a estudiantes de doctorado destacados y proporciona $ 2000 para gastos de investigación.
¡Felicitaciones Eli!


¡Taylor Jones recibió la Beca de Capacitación en Informática Biomédica T15 (financiada por NIEHS) para el año 2020-2021! 2020-05-19

¡Taylor Jones se unirá a Meiler Lab como estudiante de posgrado a partir del 1 de junio de 2020! El nombramiento de la beca de formación fue ofrecido por el Departamento de Informática Biomédica de la Universidad de Vanderbilt y está fundado por NIEHS.

¡Felicitaciones Taylor y bienvenido a Meiler Lab!


¡Tiffany Alyssa Shields recibió el premio Merck Index! 2020-04-23

El premio Merck Index se otorga anualmente a un destacado estudiante de último año que se gradúa en la escuela de medicina o en la escuela de posgrado.


¡Aodong Liu recibió el premio Thomas W. Martin! 2020-04-22

El premio Thomas W. Martin se estableció en 1993 en memoria de Thomas W. Martin, profesor de química en Vanderbilt de 1957 a 1991. Otorgado anualmente a un graduado de química que se ha destacado en química física y planea asistir a una escuela de posgrado en química.

¡Felicitaciones, Aodong Liu!


¡Pranav Kodali recibió el premio Aida Nureddin de Investigador Joven Sobresaliente del Departamento de Bioquímica! 2020-04-15


Felicitaciones al Dr. Meiler por su puesto de profesor doble en la Universidad de Leipzig y la Universidad de Vanderbilt. 2020-01-28


Bian Li, ex estudiante de posgrado de laboratorio de Meiler, recibe una beca de la AHA. 2019-12-09

El ex estudiante graduado del laboratorio Meiler, Bian Li, recibe una beca distinguida de la Asociación Estadounidense del Corazón (AHA) por su proyecto "Perspectivas biofísicas e interpretación probabilística de las variantes de significado incierto del canal iónico cardíaco"


Brennica Marlow ha sido seleccionada para copresidir una sesión en la 64a Reunión Anual de la Sociedad Biofísica 2019-12-09

Brennica Marlow ha sido seleccionada para copresidir la sesión y ldquoPlataforma: Interacciones proteína-lípido I& rdquo en la 64ª Reunión Anual de la Sociedad Biofísica. Esta sesión tendrá lugar en San Diego CA el domingo 16 de febrero de 2020.


Rocco Moretti, PhD ha sido ascendido a profesor asociado de investigación 2019-06-17

Rocco Moretti, PhD ha sido ascendido a profesor asociado de investigación en reconocimiento a sus contribuciones a la excelencia en investigación en la Universidad de Vanderbilt, el Departamento de Química, RosettaCommons (https://www.rosettacommons.org/) y el laboratorio Meiler.


Marion Sauer gana el premio al liderazgo estudiantil 2019 2019-06-15

¡Felicitaciones Marion y gracias por su servicio comunitario!


Eli McDonald para recibe la subvención de capacitación en interfaz de biología química de Vanderbilt 2019-05-28

Felicitaciones a Eli McDonald por recibir la Beca de Capacitación en Interfaz de Biología Química de Vanderbilt (NIH- # 5T32GM065086) en nombre del Instituto de Biología Química de Vanderbilt.


Jens Meiler recibe el premio de la Fundación Humboldt 2018-12-18

Jens Meiler ha sido seleccionado para la cátedra Humboldt y ahora se embarcará en negociaciones de nombramiento con la universidad alemana que lo nominó. Si las negociaciones tienen éxito, el premio se otorgará en mayo de 2019.


Shannon Smith recibe la Beca de Informática Predoctoral de la Fundación PhRMA 2018-12-11

Shannon Smith recibe la Beca de Informática Predoctoral de la Fundación PhRMA.


¡Samuel Schmitz aprueba con éxito su examen de calificación! 2018-11-13

Samuel Schmitz aprueba con éxito su examen de calificación con el título "Un enfoque combinado de secuencia-estructura para dilucidar los repertorios inmunológicos".


¡Jessica Finn pasó su defensa! 2018-11-12

Jessica Finn aprobó su defensa con el título "Relaciones de secuencia, estructura y función de los anticuerpos humanos".


¡Brian Bender pasó su defensa! 2018-11-11

Brian Bender aprobó su defensa con el título "Predicción de estructuras e interpretación de variantes de proteínas de membrana con la ayuda de algoritmos de aprendizaje automático".


    La predicción de la estructura de la proteína tiene como objetivo determinar la ubicación espacial de cada átomo en una molécula de proteína a partir de la secuencia de aminoácidos mediante cálculos computacionales. Nuestro laboratorio ha desarrollado una serie de algoritmos para la predicción de la estructura de proteínas en 3D, incluido I-TASSER para el ensamblaje iterativo de la estructura de la proteína, QUARK para el plegamiento de proteínas ab initio y MUSTER y LOMETS para la identificación de la estructura de la plantilla de proteínas, algunos de los cuales han sido reconocidos como los mejor y ampliamente utilizado por la comunidad.

La Evaluación Crítica de la Predicción de la Estructura (CASP) es un experimento de toda la comunidad, que se diseña para comparar el estado del arte de la predicción de la estructura de la proteína cada dos años desde 1994. Nuestro laboratorio ha participado como "Zhang-Server" en la sección de predicción de estructura automatizada desde 2006, cuyo método se ha clasificado sistemáticamente en la parte superior de los experimentos (Tabla 1). Los resultados de experimentos CASP recientes se pueden encontrar en Protein Structure Prediction Center.

tabla 1. Los diez grupos principales en la predicción automatizada de estructuras en CASP 7-9, clasificados según la puntuación acumulada de GDT-TS del primer modelo.
(Los datos se tomaron de http://predictioncenter.org. Cuando varios servidores son del mismo laboratorio, se enumera el mejor servidor)

El problema más difícil en la predicción de la estructura de las proteínas es el modelado de proteínas que no tienen estructuras resueltas que puedan usarse como plantilla, comúnmente denominado modelado "ab initio" o "modelado libre (FM)". La Figura 1 muestra un ejemplo exitoso de modelado ab initio en un objetivo FM (T0604_1) en CASP9, donde el primer modelo del servidor I-TASSER tiene un RMSD 2.66 Angstroms para la estructura de cristal de rayos X.
Figura 1. El primer modelo del servidor I-TASSER frente a la estructura cristalina de T0604_1, un objetivo FM en CASP9.
Esta es la proteína VP0956 de Vibrio parahaemolyticus, resuelta por el Northeast Structural Genomics Consortium.

  1. ¿Cómo construir estructuras de resolución experimental (por debajo de 1-2 Angstroms, útiles para la detección de drogas) cuando se dispone de plantillas homólogas?
  2. ¿Cómo identificar plantillas lejanamente homólogas con alineaciones precisas de plantilla de consulta?
  3. ¿Cómo plegar proteínas (especialmente proteínas beta) con la topología correcta mediante el modelado ab initio, cuando no existen plantillas?
  4. ¿Cómo doblar las proteínas de la membrana?
    El diseño de proteínas se refiere al esfuerzo por diseñar nuevas moléculas de proteínas con una estructura y función 3D deseadas. Es un procedimiento inverso de predicción de la estructura de la proteína y, por lo tanto, la solución del problema depende en gran medida del alcance de nuestro conocimiento sobre el principio de plegamiento de proteínas (Figura 2).
    Figura 2. El diseño de proteínas es un procedimiento inverso a la predicción de la estructura de las proteínas.

Diseñamos con éxito una serie de nuevas secuencias de proteínas basadas en un campo de fuerza atómica basado en la física con el estado de energía libre más bajo buscado por la simulación de Monte Carlo, seguido de la agrupación basada en secuencias. I-TASSER puede plegar la secuencia de proteínas diseñada con un RMSD & lt2 Angstroms en el 62% de los casos, a pesar de que el campo de fuerza de I-TASSER difiere significativamente del utilizado en el diseño. La Figura 3 muestra tres ejemplos representativos de la estructura de la proteína diana y el modelo I-TASSER de las secuencias diseñadas.

figura 3. Modelos I-TASSER de secuencias de diseño (rojo) versus estructura cristalina de proteínas diana (verde)
para el dominio de unión al calcio de Calx (3E9TA), la proteína de unión al olor (2ERBA) y el peptidil-tRNA
hidrolasa (1WN2A). Las identidades de secuencia de las secuencias diseñadas y diana están todas por debajo del 30%.

Recientemente, propusimos un nuevo protocolo, EvoDesign, que utiliza perfiles evolutivos para guiar el refinamiento de plegamiento de nuevos diseños, con funciones biológicas introducidas por interacciones y perfiles de unión de interfaz de proteína. El protocolo se utilizó recientemente para diseñar con éxito dominios BIR3 funcionales XIAP (inhibidor de la proteína de apoptosis ligado a X) capaces de unirse a péptidos Smac pero sin inhibir la actividad proteolítica de caspasa-9 in vitro, lo que demostró el potencial para cambiar las vías de apoptosis a través del diseño de proteínas computacionales ( Figura 4).

Figura 4. Secuencia y estructura de dos XIAP diseñados por EvoDesign que se unen con
Péptidos Smac pero que no inhiben la actividad proteolítica de caspasa-9 in vitro.

    Dada la secuencia de aminoácidos, ¿podemos decir qué hace la molécula de proteína en las células vivas? Hemos desarrollado COFACTOR para la predicción de funciones de proteínas, basado en el paradigma de secuencia a estructura a función. A partir de la secuencia de aminoácidos, I-TASSER construye primero las estructuras 3D. Los conocimientos funcionales (incluida la clasificación enzimática, la ontología genética y la especificidad de unión al ligando) se deducen luego mediante la comparación local y global de los modelos estructurales con proteínas de funciones conocidas (Figura 5).


Figura 5. Anotación de la función de la proteína basada en el paradigma de secuencia a estructura a función. La derecha
panel son los homólogos de función identificados por coincidencias globales (a) y locales (b) de los modelos I-TASSER.

El COFACTOR se probó en el experimento CASP9 de toda la comunidad como "I-TASSER_FUNCTION" en la sección Servidor y como "ZHANG" en la sección Humana, que se clasificaron en las dos primeras posiciones tanto en la puntuación Z como en el coeficiente de correlación de Matthews ( MCC) en comparación con los datos experimentales (Figura 6).

    La mutación y la evolución en el genoma humano se producen principalmente a través de polimorfismos de un solo nucleótido (SNP), es decir, reemplazos de un solo nucleótido en la secuencia de ADN. Aunque muchos SNP no tienen ningún efecto sobre la salud humana, algunos SNP pueden provocar un pliegue y una función anormales de las proteínas y enfermedades humanas graves. Los estudios han demostrado que más de 6.000 enfermedades humanas se deben a mutaciones de SNP, y casi todos los cánceres humanos son causados ​​por mutaciones genéticas, algunas de herencia congénita y otras que ocurren durante la división celular (Figura 7).


Figura 7. Muchas enfermedades humanas son causadas por polimorfismos de un solo nucleótido (SNP).

Recientemente hemos estudiado el impacto de las mutaciones de SNP en la estabilidad del plegamiento de proteínas, y encontramos que los cambios de energía libre inducidos por SNP (es decir, ddG, Figura 8A), calculados a partir de la predicción de la estructura de la proteína, están estrechamente correlacionados con la medición experimental, lo que demuestra la viabilidad de utilizar información de predicción de estructuras de baja resolución para examinar el efecto de mutaciones genéticas (Figura 8B). En otro estudio, investigamos el impacto de las mutaciones de SNP en la estabilidad de las interacciones proteína-proteína (PPI). Se encontró que los perfiles estructurales de la interfaz, recolectados de interfaces PPI homólogas, pueden usarse para calibrar con precisión los cambios de afinidad de unión proteína-proteína por mutaciones SNP (Figura 8C).
Figura 8. Modelado del impacto de las mutaciones de SNP en el plegamiento de proteínas y las interacciones proteína-proteína. (A) Definición de
cambio de estabilidad tras la mutación en un modelo de dos estados. (B) Impacto de la predicción de la estructura de la proteína en el cambio de estabilidad
cálculos. (C) Unión de cambios de energía libre calculados por perfil de interfaz frente a datos experimentales de mutagénesis.

    Cada proteína interactúa (al menos de manera transitoria) con aproximadamente otras 9 proteínas, lo que forma complicadas redes de interacción dentro de una célula (Figura 9). Dado que la mayoría de las proteínas realizan su función biológica a través de la interacción con otras proteínas, muchas enfermedades pueden tratarse diseñando nuevos fármacos para inhibir o activar las interacciones proteína-proteína, donde el conocimiento de las estructuras del complejo proteína-proteína es fundamental.

Figura 9. Rhodopseudomonas palustris red de interacción proteína-proteína.

Para predecir la estructura 3D de los complejos proteína-proteína a partir de la secuencia, desarrollamos un nuevo algoritmo de enhebrado dimérico, COTH, para reconocer la estructura de la plantilla de los complejos de proteínas a partir de bases de datos estructurales complejas resueltas. COTH alinea secuencias de múltiples cadenas simultáneamente a través de la biblioteca PDB utilizando funciones de puntuación que incluyen múltiples perfiles de secuencia e información estructural, con la ayuda de predicciones de interfaz de BSpred. El algoritmo COTH demostró una ventaja significativa en comparación con otros métodos de identificación de plantillas basados ​​en homología (Figura 10).

Figura 10. Puntuación TM de las plantillas identificadas por COTH frente a la de otros métodos basados ​​en homología.

    Los receptores acoplados a proteínas G, o GPCR, son proteínas integrales de membrana incrustadas en la superficie celular que transmiten señales a las células en respuesta a estímulos y median funciones fisiológicas a través de la interacción con proteínas G heterotriméricas (Figura 11). Muchas enfermedades involucran el mal funcionamiento de estos receptores, lo que los convierte en importantes objetivos de los medicamentos. Más del 50% de todos los medicamentos modernos se dirigen a los GPCR, que representan el 25% de los 100 medicamentos más vendidos en todo el mundo.


Figura 11. Los GPCR comprenden la familia más grande de proteínas de membrana y actúan como receptores celulares para la transducción de señales celulares.

Estamos trabajando en el desarrollo de la nueva herramienta de modelado GPCR, GPCR-ITASSER, que amplía I-TASSER incorporando las interacciones proteína-membrana y las restricciones de mutagénesis en el campo de fuerza basado en el conocimiento. Las interacciones ligando-GPCR luego se modelan mediante BSP-SLIM, una herramienta de acoplamiento molecular ciego diseñada para el acoplamiento proteína-ligando de baja resolución. El método se probó (como "UMich-Zhang") en el reciente experimento GPCR Dock de toda la comunidad en 2010. La Figura 12 muestra el resultado de nuestro laboratorio en los tres complejos ligando-GPCR, donde los primeros modelos de receptor son 2.4 y 1.6 Angstroms a la estructura cristalina en la región transmembrana para los receptores de quimiocina CXCR4 y dopamina D3, respectivamente. Los tres ligandos, antagonistas IT1t, CVX15 y eticloprida, están todos en el mismo bolsillo que el de la estructura cristalina (Figura 12).
Figura 12. El primer modelo de acoplamiento ligando-receptor generado por GPCR-ITASSER y BSP-SLIM en GPCR-Dock 2010.
Izquierda: receptor de quimiocina CXCR4 con IT1t centro: receptor CXCR con CVX15 derecha: dopamina D3 con eticloprida.

La Tabla 2 muestra un resumen de los 10 grupos principales (de 35) en GPCRDock 2010, junto con la puntuación Z acumulativa en los tres objetivos para los modelos de receptor y ligando. El éxito más significativo de nuestros modelos se encuentra en el objetivo de homología distante CXCR4 / CVX15, como Kufareva et al. (los evaluadores) comentaron: "Modelar el complejo de péptidos CXCR4 / CVX15 representó el mayor desafío de GPCR Dock 2010. El modelo superior de este complejo (por UMich-Zhang) tiene el puntaje Z de 2,45 que supera con creces a otros modelos en precisión. "

Tabla 2. Los 10 mejores grupos de GPCRDock 2010 según la puntuación Z total de los modelos de receptor y ligando.
(Los datos se tomaron de Kufareva et al. Estructura. 2011, 19: 1108)

    En términos de la metáfora de la cerradura y la llave, el diseño de un fármaco es esencialmente un procedimiento para encontrar una molécula compuesta apropiada (la llave) que pueda coincidir bien con el bolsillo del sitio activo de la proteína objetivo (la cerradura). Por lo tanto, un paso importante del diseño de un fármaco racional basado en la estructura es utilizar la estructura 3D experimental o prevista de la proteína diana para analizar las bases de datos de compuestos con el fin de identificar los fármacos adecuados que puedan inhibir o activar la proteína (Figura 13).

Figura 13. Un ejemplo exitoso de diseño de fármacos basado en estructuras de Bugg et al. en la década de 1990 en el diseño de una molécula
que inhibe la enzima purina nucleósido fosforilasa (PNP). PNP normalmente capta nucleósidos individuales (a)
y escinde la purina del azúcar, dando lugar a una base de purina libre y un azúcar fosforilado (b).
Un compuesto bien ajustado bloquea la bolsa de unión y, por lo tanto, inhibe la actividad de la enzima PNP (c).

Recientemente, desarrollamos un enfoque compuesto para la identificación de compuestos similares a medicamentos, que combina el cribado virtual basado en la estructura con la relación cuantitativa estructura-actividad (QSAR). Al utilizar el enfoque del receptor del factor de crecimiento epidérmico (EGFR), una proteína diana importante asociada con tumores de cerebro, pulmón, vejiga y colon, encontramos que dos compuestos (2 y 21) tienen actividades inhibidoras de EGFR significativas (Figura 14). El ensayo experimental para probar la capacidad de los compuestos para inhibir las proteínas receptoras está en curso.

Figura 14. Estructura de unión de dos compuestos seleccionados de la biblioteca ZINC que tienen inhibidores
actividad sobre el receptor del factor de crecimiento epidérmico (EGFR), una importante proteína diana tumoral.


G4. Predicción de la estructura de la proteína de membrana: biología

############### Versión estable: 2.2.1 Ver Wiki para más información

Muriel Keribin y Cyril Duchon-Doris para la predicción de proteínas II WinterSemester 2015-2016

TMSEG predice proteínas transmembrana (TMP) y hélices transmembrana (TMH) utilizando matrices de puntuación específicas de posición (PSSM) generadas por PSI-BLAST y las propiedades físico-químicas de los aminoácidos.

Actualizar: Debido a la cuota limitada de Git LFS, ahora también alojamos esos archivos en el servidor FTP de Rostlab en ftp://rostlab.org/tmseg/

Algunos archivos son muy grandes (archivos modelo para algoritmos ML) y se han confirmado usando git-lfs *. Es obligatorio instalar git-lfs al clonar / extraer el repositorio. Descargue e instale git-lfs Luego ejecute git lfs install en cada máquina una vez. Entonces no necesita preocuparse por eso (solo si desea agregar / cambiar el nombre de algunos archivos que desea rastrear con git-lfs).

* Git Large File Storage (LFS) reemplaza archivos grandes como muestras de audio, videos, conjuntos de datos y gráficos con punteros de texto dentro de Git, mientras almacena el contenido del archivo en un servidor remoto como GitHub.com o GitHub Enterprise.

Opcional: puede optar por omitir este paso y utilizar el archivo tmseg.jar preempaquetado en la primera carpeta / src /

Un script ANT (build.xml) le permite compilar la última versión del programa con ant

Una vez extraído con git-lfs, encontrará tmseg.jar en la primera carpeta / src / Este jar se puede ejecutar fácilmente con java con algunos ejemplos proporcionados en la carpeta / example:

El proyecto se puede cargar desde eclipse (nosotros agregamos un .project y .classpath)

Debido a la portabilidad de JAVA, el programa funciona en cualquier sistema operativo que pueda ejecutar una JVM. Se informa que Java 1.7 y 1.8 funcionan bien.

Michael Bernhofer (1) Edda Kloppmann (1,2) Jonas Reeb (1) Burkhard Rost (1,2,3,4)

  1. Departamento de Informática y Centro de Bioinformática y Biología Computacional - i12, Technische Universität München (TUM), Boltzmannstr. 3, 85748 Garching / Munich, Alemania
  2. Consorcio de Nueva York sobre Estructura de Proteínas de Membrana, Centro de Biología Estructural de Nueva York, 89 Convent Avenue, Nueva York, NY 10027
  3. Instituto de Estudios Avanzados (TUM-IAS), Lichtenbergstr. 2a, 85748 Garching / Munich, Alemania
  4. Instituto de Ciencias de la Alimentación y las Plantas WZW - Weihenstephan, Alte Akademie 8, Freising, Alemania

Primera versión del programa: el trabajo comenzó en 2014, la primera confirmación el 02/09/2014, la última el 03/01/2014 Michael lanzó una segunda versión (TMSEG 2) en noviembre de 2015 en https://github.com / BernhoferM / TMSEG2. Luego, el repositorio se bifurcó a Rostlab / espacio de nombres y el trabajo debería continuar desde allí

Michael Bernhofer ha implementado el método en este programa java TMSEG

M Bernhofer, E Kloppmann, J Reeb, B Rost. TMSEG: nueva predicción de hélices transmembrana.

El programa en sí está codificado en Java y exportado en un archivo .jar. Archivos de origen disponibles en src /

La predicción se divide en tres pasos realizados por tres clasificadores diferentes.

  • Árboles de decisión de bosque aleatorio (RF)
  • predice la probabilidad de que cada residuo se encuentre en uno de tres estados: transmembrana, soluble y péptido señal. El RF utiliza una ventana deslizante de 19 residuos para las puntuaciones del PSSM y 9 residuos para las propiedades físico-químicas (carga, hidrofobicidad, polaridad). A continuación, la secuencia de proteínas se divide en segmentos transmembrana y solubles (y péptido señal, si corresponde) en función de las probabilidades.
  • predice la topología interior / exterior del N-terminal. La predicción se basa en la composición de aminoácidos y la carga positiva de los residuos en los dos lados de la membrana (separados por TMH).
  • Neural Network (NN) refina la predicción ajustando la posición de las TMH o potencialmente dividiendo las TMH muy largas (residuos & gt36). Este NN está entrenado específicamente en la longitud, la composición de aminoácidos y las propiedades físico-químicas de las TMH.

El TMSEG se comparó con tres métodos establecidos: PolyPhobius [1], MEMSAT3 [2], MEMSAT-SVM [3] y PHDhtm [4]. Su rendimiento fue al menos comparable y, a menudo, mejor que los otros tres métodos. La evaluación se realizó en un conjunto de datos con 41 proteínas transmembrana y 285 proteínas solubles. Los perfiles de PSSM se generaron ejecutando PSI-BLAST contra el grupo de referencia UniProt [5] con una identidad de secuencia del 90% (UniRef90).

TMSEG identificó correctamente 98 ± 2% de las proteínas transmembrana (40 de 41 TMP) y tuvo una tasa de falsos positivos de sólo 3 ± 1% (8 de 285 proteínas solubles). Las hélices transmembrana se predijeron con una precisión del 87 ± 4% y la recuperación del 85 ± 4%, y el 66 ± 7% de todas las proteínas transmembrana se predijeron con todas sus hélices en las posiciones correctas (es decir, sin falsos positivos / negativos).

Se consideró que una hélice predicha era correcta si sus puntos finales no se desviaban en más de cinco residuos de la hélice observada, y si la superposición entre la hélice predicha y la observada era al menos la mitad de la longitud de la hélice más larga.

TMSEG utiliza solo las puntuaciones de PSI-BLAST PSSM y las características derivadas de esas puntuaciones. Por lo tanto, la calidad de la predicción depende en gran medida de la calidad del PSSM. Para estimar el efecto del tamaño de la base de datos sobre la precisión de la predicción, se utilizaron PSSM de una ejecución de PSI-BLAST contra UniRef50 Cluster y Swiss-Prot.

Estos PSSM afectaron principalmente a la recuperación de proteínas y hélices transmembrana. La recuperación de proteínas se redujo al 95% (UniRef50) y al 90% (Swiss-Prot), y la recuperación de la hélice al 79% (UniRef50) y al 77% (Swiss-Prot). The precision of the transmembrane helices dropped to 83% (UniRef50) and 82% (Swiss-Prot), and the percentage of transmembrane proteins with all helices at their correct positions was only 59% (UniRef50) and 49% (Swiss-Prot). However, the false positive rate (i.e. soluble proteins predicted as transmembrane proteins) was mostly unaffected and remained at 3% (UniRef50) and 2% (Swiss-Prot).

Inputs/Output arguments and flags

IN -i : FASTA file (only amino acids sequences)

IN -p : PSSM Matrix file generated by PSI-BLAST

OUT -o : Human readable file

OUT -r : Raw prediction scores

FLAG -m : Multi-job (process whole folder of PSSM/FASTA)

FLAG -x : Process previous prediction - Adjust (requires FASTA)

FLAG -t : Only perform topology prediction

[1] L. Käll, A. Krogh, and E. L. Sonnhammer. An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics, 21 Suppl 1:i251–257, Jun 2005. [DOI:10.1093/bioinformatics/bti1014] [PubMed:15961464]

[2] D. T. Jones. Improving the accuracy of transmembrane protein topology prediction using evolutionary information Bioinformatics, 23(5):538–544, Mar 2007. [DOI:10.1093/bioinformatics/btl677] [PubMed:17237066]

[3] T Nugent, D. T. Jones. Transmembrane protein topology prediction using support vector machines. BMC Bioinformatics 200910:159. [DOI:10.1186/1471-2105-10-159] [PubMed:19470175]

[4] B. Rost, P. Fariselli, and R. Casadio. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci., 5(8):1704–1718, Aug 1996. [DOI:10.1002/pro.5560050824] [PubMed:8844859] [PubMed Central:PMC2143485]

[5] UniProt C. UniProt: a hub for protein information. Ácidos nucleicos Res. 2015, 43:D204-212. [DOI:10.1093/nar/gku989] [PubMed:25348405] [PubMed Central:PMC4384041]


Debora Marks

Associate Professor of Systems Biology
Marks Lab website

Contact Information
Email: [email protected]

Faculty Assistant: Kevin Chimo
[email protected]
617-432-5041

One million human genomes, will it make a difference? The large and growing volume of genome information, from all forms of life, presents unprecedented opportunities for computational biologists. The challenge for our scientific generation is to turn an avalanche of sequence information into meaningful discovery of biological principles, predictive methods, or strategies for molecular manipulation for therapeutic and biofuel discovery. The Marks lab is a new interdisciplinary lab dedicated to developing rigorous computational approaches to critical challenges in biomedical research, particularly on the interpretation of genetic variation and its impact on basic science and clinical medicine. To address this we develop algorithmic approaches to biological data aimed at teasing out causality from correlative observations, an approach that has been surprisingly successful to date on notoriously hard problems. In particular, we developed methods adapted from statistical physics and graphical modeling to disentangle true contacts from observed evolutionary correlations of residues in protein sequences. Remarkably, these evolutionary couplings, identified from sequence alone, supplied enough information to fold a protein sequence into 3D. The software and methods we developed is available to the biological community on a public server that is quick and easy for non-experts to use. In this evolutionary approach to accurately we have predicted the 3D structure of hundreds of proteins and large pharmaceutically relevant membrane proteins. Many of these were previously of unknown structure and had no homology to known sequences two of the large membrane proteins have now been experimentally validated. We have now applied this approach genome wide to determine the 3D structure of all protein interactions that have sufficient sequences and can demonstrate the evolutionary signature of alternative conformations.

The vision for the Marks lab is to build computational methods that address three critical challenges (i) protein conformational plasticity in health and disease, (ii) genome-wide evaluation of mutations on disease likelihood, antibiotic resistance and personal drug response, and (iii) synthetic protein design.

About Dr. Marks: I am a computational biologist interested in how to read the genome and interpret its variation. Recently, we have used evolutionary couplings determined from genomic sequencing to accurately protein 3D structure from sequences alone, including the experimentally challenging transmembrane proteins. Continuing from this my lab aims to predict alternative conformations and plasticity of proteins, and the consequences of protein genetic variation on pharmacological intervention. In a complementary approach, we are examining on the effect of drugs on patients and cell lines by bringing together large bodies of data from multiple perturbations and thousands of cancer patient tissues.


G4. Prediction of Membrane Protein Structure - Biology

Transmembrane Prediction Server

This page has been developed for use locally (at the moment) for the prediction of transmembrane helices in proteins. It is made available publically, but is currently unsupported. If you have a major problem contact benjamin.hall (at) bioch.ox.ac.uk (replace (at) with @) but the response is not guaranteed. This service was developed by John Cuthbertson and the following reference should be cited if used in published work.

Transmembrane helix prediction: a comparative evaluation and analysis.

Protein Eng Des Sel. 2005 Jun18(6):295-308

This work was funded by the MRC:

None of the original programs were produced or developed by me:

Enter your query protein sequence into the form below. The sequence should be in one letter code with no identifiers . A good site for converting between different sequence formats is READSEQ

For a brief description of the method read the abstract.

Please cite: M. Cserzo, E. Wallin, I. Simon, G. von Heijne and A. Elofsson: Prediction of transmembrane alpha-helices in procariotic membrane proteins: the Dense Alignment Surface method Prot. Ing. vol. 10, no. 6, 673-676, 1997

The method is described in "G.E Tusn dy and I. Simon (1998) Principles Governing Amino Acid Composition of Integral Membrane Proteins: Applications to Topology Prediction." J. Mol. Biol. 283, 489-506. New features of HMMTOP 2.0 are described in "G.E Tusn dy and I. Simon(2001). The HMMTOP transmembrane topology prediction server" Bioinformatics 17, 849-850

White & Wimley (1999) Annu. Rev. Biophys. Biomolec. Struct. 28:319-365

PHDhtm predicts the location and topology of transmembrane helices from multiple sequence alignments Transmembrane helices in integral membrane proteins are predicted by a system of neural networks. The shortcoming of the network system is that often too long helices are predicted. These are cut by an empirical filter. The final prediction (Rost et al., Protein Science, 1995, 4, 521-533) has an expected per-residue accuracy of about 95%. The number of false positives, i.e., transmembrane helices predicted in globular proteins, is about 2% (Rost et al. 1996). The neural network prediction of transmembrane helices (PHDhtm) is refined by a dynamic programming-like algorithm. This method resulted in correct predictions of all transmembrane helices for 89% of the 131 proteins used in a cross-validation test more than 98% of the transmembrane helices were correctly predicted. The output of this method is used to predict topology, i.e., the orientation of the N-term with respect to the membrane. The expected accuracy of the topology prediction is > 86%. Prediction accuracy is higher than average for eukaryotic proteins and lower than average for prokaryotes. PHDtopology was more accurate than all other methods tested on identical data sets in 1996 (Rost, Casadio & Fariselli, 1996a and 1996b). B Rost: PHD: predicting one-dimensional protein structure by profile based neural networks. Methods in Enzymology, 266, 525-539, 1996. B Rost, P Fariselli, and R Casadio: Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Science, 7, 1704-1718, 1996 Comments to be sent to [email protected]

Please cite the following references when you publish the results of this program. Klein, P., Kanehisa, M., and De Lisi, C., Biochim. Biophys. Acta, 815, 468-476, 1985. (for the modification using two threshold parameters:) Nakai, K., and Kanehisa, M., Genomics 14, 897-911, 1992. Any comments to [email protected] . Originally coded by Minoru Kanehisa

Membrane Protein Secondary Structure Prediction Server

The purpose of this server is to predict the transmembrane (TM) secondary structures of membrane proteins, using the method of preference functions. The method was invented by Davor Juretic, professor at the University of Split, Croatia. This server was written by Damir Zucic,at the University of Osijek , Croatia. Ana Jeroncic was involved both in development of the prediction program and in testing of this server. Click here to read more about Prof. Davor Juretic group. For comments contact prof. dr. Davor Juretic or [email protected]

This program predicts transmembrane segments in proteins, utilising the algorithm described in: "Persson, B. & Argos, P. (1994) Prediction of transmembrane segments in proteins utilsing multiple sequence alignments J. Mol. Biol. 237, 182-192."and "Persson, B. & Argos, P. (1996) Topology prediction of membrane proteins Prot. Sci. 5, 363-371" Users of this program are kindly asked to cite the above references in publications (or other types of presentation). Send your comments to [email protected]

Liu, L.-P. and Deber, C.M.: Guidelines for Membrane Protein Engineerin g Derived from de novo Designed Model Peptides. Biopolymers (Peptide Science) 47 , 41-62 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Uncoupling Protein Hydrophobicity and Helicity in Nonpolar Environments. J. Biol. Chem 273 , 23645-23648 (1998). (Abstract)

Liu, L.-P. and Deber, C.M.: Combining Hydrophobicity and Helicity: A Novel Approach to Membrane Protein Structure Prediction. Bioorg & Med. Chem. 7 , 1-7 (1999). (Abstract) Feel free to send comments to [email protected] .

Anders Krogh and Bjorn Larsson, Gunnar von Heijne, and Erik L.L. Sonnhammer: Predicting Transmembrane Protein Topology with a Hidden Markov Model: Application to Complete Genomes. J. Mol. Biol. 305:567-580, 2001. and Erik L.L. Sonnhammer, Gunnar von Heijne, and Anders Krogh: A hidden Markov model for predicting transmembrane helices in protein sequences. In J. Glasgow et al., eds.: Proc. Sixth Int. Conf. on Intelligent Systems for Molecular Biology, pages 175-182. AAAI Press, 1998. Comments to be sent to Anders Krogh, [email protected]

The TMpred program makes a prediction of membrane-spanning regions and their orientation. The algorithm is based on the statistical analysis of TMbase, a database of naturally occuring transmembrane proteins. The prediction is made using a combination of several weight-matrices for scoring. K. Hofmann & W. Stoffel (1993) TMbase - A database of membrane spanning proteins segments Biol. Chem. Hoppe-Seyler 347 ,166


Materiales y métodos

Data Compilation

We collected from the SwissProt UniProt database (release 2013_03) 10,780 transporter, carrier, and channel proteins that were well characterized at the protein level and had clear substrate annotations [15], [16]. We removed sequences that were fragmented. We also removed sequences annotated with more than two substrate specificities and biological function annotations that were based solely on sequence similarity. We manually curated the biological function annotations from the remaining sequences and compiled a total of 1,110 membrane transport protein sequences in which only one transporting substrate has been reported in the literature. We removed 210 sequences that showed greater than 70% similarity using CD-HIT software [17] (see Figure S1 for details about the data compilation and curation processes). The 900 remaining transporter sequences were then divided into seven major classes of transporters based on their substrate specificity: 85 amino acid/oligopeptide transporters, 72 anion transporters, 296 cation transporters, 70 electron transporters, 85 protein/mRNA transporters, 72 sugar transporters, and 220 other transporters. We also compiled 660 non-transporters as an extra class of control proteins in our model development process by randomly sampling all the proteins in UniProt release 2013_03 excluding the 10,780 transporters.

We further divided the 1,560 compiled proteins into two datasets: 1) the main dataset, which consisted of 70 amino acid transporters, 60 anion transporters, 260 cation transporters, 60 electron transporters, 70 protein/mRNA transporters, 60 sugar transporters, 200 other transporters, and 600 non-transport proteins for a total of 1,380 proteins and 2) an independent dataset, which consisted of 15 amino acid transporters, 12 anion transporters, 36 cation transporters, 10 electron transporters, 15 protein/mRNA transporters, 12 sugar transporters, 20 other transporters, and 60 non-transport proteins for a total of 180 proteins (see Cuadro S1 for a detailed dataset partition all the sequences are available on our TrSSP web server at http://bioinfo.noble.org/TrSSP/). We applied a five-fold cross-validation schema on the 1,380 proteins in the main dataset to develop our SVM models. The performance of these SVM models was further tested and validated on the independent dataset of 180 proteins. To evaluate the prediction accuracy of the models for each class of proteins, proteins within the same class were considered a positive predictor and proteins from the remaining classes were considered a negative predictor.

Extraction of multi-features from protein sequences for SVM model construction

Monopeptide composition.

Amino acid composition is the best and most popular method to represent the features of a protein [18]. The monopeptide composition gives a fixed length pattern of 20 features. The amino acid composition of a protein is defined as the fraction of each amino acid within that protein. The percentage of each amino acid was calculated using the following formula: (1) where I represents one of the 20 standard amino acids.

Dipeptide composition.

The dipeptide composition was used to encapsulate global information about each protein sequence. The dipeptide composition gives a fixed length pattern of 400 (20×20) features. Two consecutive amino acids are used to calculate the dipeptide composition information. This representation encompasses information about the amino acid composition as well as the local order of amino acids. The percentage of each dipeptide was calculated using the following formula: (2) where I can be any dipeptide of 400 possible dipeptides.

Physico-chemical composition.

The physico-chemical composition is the composition of the physico-chemical class residues in each protein sequence. We calculated the percentage composition of charged (D, E, K, H, R), aliphatic (I, L, V), aromatic (F, H, W, Y), polar (D, E, R, K, Q, N), neutral (D, E, R, K, Q, N), hydrophobic (C, V, L, I, M, F, W), positively charged (H, K, R), negatively charged (D, E), tiny (A, C, D, G, S, T), small (E, H, I, L, K, M, N, P, Q, V), and large (F, R, W, Y) residues in each protein sequence [19]. We used the composition percentages of these 11 physico-chemical properties as an input feature to the SVM for model development [20].

Biochemical composition calculation.

The biochemical composition of the amino acid residues was also used as an input feature to the SVM for model development. We used a set of 49 selected physical, chemical, energetic, and conformational properties to define the biochemical composition of each protein sequence [13]. These values are subsets of the AAIndex database [21], which has been successfully used to study protein folding and stability [22]–[24] and transporter classification [25]. We downloaded the 0–1 normalized values of these 49 properties from http://www.cbrc.jp/

gromiha/fold_rate/property.html the details of each property are available at this website. We calculated the average of each biochemical property for each protein sequence using the following equation: (3)

Where is the value for the Ith biochemical property in a given protein sequence, is the arithmetic sum of the Ith biochemical property, and norte is the length of the protein sequence. We therefore converted the biochemical properties of each protein sequence into a vector with a fixed size of 49.

Position-specific scoring matrix (PSSM) profile

PSI-BLAST (Position-Specific Iterative Basic Local Alignment Search Tool) is a popular tool for the detection of distantly related proteins. PSI-BLAST calls BLAST (Basic Local Alignment Search Tool) to construct a profile or position-specific scoring matrix (PSSM) from the multiple alignments of the highest scoring hits in an initial BLAST search (default threshold e-value = 1e-3). The newly generated profile is then used iteratively to perform subsequent BLAST searches, and the result of each iteration is in turn used to refine the PSSM profile [26]. The PSSM therefore contains the probability of the occurrence of each type of amino acid residue at each position as well as insertions/deletions. Highly conserved positions receive high scores and weakly conserved positions receive near zero scores. We ran PSI-BLAST against the UniRef90 protein database (i.e., the non-redundant UniRef database with 90% sequence identity) [27] with the BLOSUM62 matrix [28]. We also used the SwissProt database [15] to generate the PSSM profile during our TrSSP web server development, which significantly reduced the computational runtime. The PSSM profile of a protein sequence extracted from PSI-BLAST was used to generate a 400-dimensional input vector to the SVM by summing all the rows in the PSSM that correspond to the same amino acid in the primary sequence. Every element in this input vector was then divided by the length of the sequence and scaled to the 0–1 range using the following standard linear function: (4) where Valor represents the individual final sum of the PSSM score for each amino acid [29].

Cross-validation

Cross-validation is a practical and reliable way to test the predictive power of a newly developed model. The jack-knife or leave-one-out cross-validation (LOOCV) [30] and five-fold cross-validation are two commonly used techniques to evaluate a model. We used a five-fold cross-validation in the present SVM model development. In five-fold cross-validation, the dataset is partitioned into five equally sized random partitions [29], [31]. The methods of development and evaluation are conducted five times using four partitions as the training dataset and the remaining partition as the testing dataset. The performance of each model is computed as the average of the five runs.

Support vector machines

The support vector machine (SVM) is a universal machine learning approximator based on the structural risk minimization (SRM) principle of statistical learning theory [32]. This technique is particularly attractive to biological sequence analysis due to its ability to handle noise and larger feature spaces [25]. We implemented SVM models using the SVM-Light software [33], which is freely available from http://svmlight.joachims.org/. SVM-Light enables the user to define the number of parameters and choose an inbuilt kernel, such as a linear, polynomial, sigmoid, or radial basis function (RBF) kernel. In this study, we tested linear, polynomial and RBF kernels for model development and found RBF performed better than other kernels. We also optimized both cost and gamma parameters (range of -j: 1- 4, -g: 1-e-5 - 10) of RBF kernel.

Comparison to similarity search based methods

Sequence similarity remains the most popular method for the functional characterization of proteins. Therefore, we compared the performance of our SVM models for the prediction of substrate-specific transporter classes on both our main dataset and independent dataset to the following similarity search based methods: BLAST, PSI-BLAST, and hidden Markov models (HMM). In these similarity search based method development and evaluations, we used all unique transporter protein sequences without applying homology sequence filtering by using the CD-HIT tool.

BLAST.

BLAST (Basic Local Alignment Search Tool) is one of the most popular bioinformatics tool for functional annotation of protein and nucleotide sequences [26], [34]. A BLAST search allows a user to search a query sequence against a library or database of sequences and find similar sequence in the library at a given cut-off threshold. The biological function of that hit sequence may be used to infer the function of the query sequence.

PSI-BLAST.

PSI-BLAST is a tool that produces a PSSM constructed from a multiple alignment of the top-scoring BLAST hits to a given query sequence [26]. The position-specific matrix for round n+1 is built from a constrained multiple alignment between the query sequence and the sequences found with a sufficiently low e-value in round norte. This scoring matrix produces a profile designed to identify the key positions of conserved amino acids within a motif. Subtle relationships between proteins that are distant structural or functional homologs can often be detected when this profile is used to search a database these relationships are often not detected by a BLAST search. Therefore, we used PSI-BLAST in addition to BLAST to detect remote homologies. We conducted an iterative search in which the sequences found in one round were used to build score models for the next round of searching. Three iterations of PSI-BLAST were conducted at different cutoff e-values. This module could predict any of the seven transporter and one non-transporter classes depending on the similarity of the query protein to the proteins in the dataset. If the top hit had an e-value lower than the cut-off threshold, then the annotation of the top hit was used as the predicted annotation of the query.

Hidden Markov models.

HMMs are statistical models of the primary structure consensus of a sequence family. HMMs were initially developed for speech recognition [35]. In biological sequence analysis, HMMs are used to build a profile that captures important information about the degree of conservation at various positions in multiple alignments and the varying degree to which gaps and insertion are permitted. HMM-based methods, which work on a formal probabilistic basis, typically outperform methods based on pairwise comparison in both alignment accuracy and database search sensitivity and specificity. Further details about HMMs can be found in Krogh et al. [36]. We adopted HMM-based searching using a freely downloadable implementation of HMM, HMMER version 3.1b1 [37], which is freely available at http://hmmer.janelia.org.

To implement the HMM-based method, the entire dataset was divided into 5 subsets similar to the five-fold cross-validation schema [38]. Four subsets of sequences were multiply aligned using ClustalW2 [39], and alignment profiles were generated using ‘hmmbuild’ in HMMER 3.1.b1. This profile database was converted into compressed binary data files using ‘hmmpress’, and tested with the fifth subset of sequences using the ‘hmmscan’ module in HMMER 3.1b1.

Assessment of prediction performances

Sensitivity, specificity, accuracy, coverage, and the Matthews correlation coefficient (MCC) were calculated for each test dataset in our five-fold cross validation to test the performance of each model. Parameters computed from each subset were averaged across all five subsets to obtain a final value.

Sensitivity was computed as , which evaluates the percentage of transporters that were correctly predicted as transporters.

Specificity was computed as , which evaluates the percentage of non-transporters that were correctly predicted as non-transport proteins.

Accuracy was computed as , which evaluates the overall percentage of transporters and non-transporters that were correctly predicted.

Coverage was computed as , which provides a measure of the number of transporters that have been correctly predicted from the total dataset. This coverage is also commonly known as sensitivity or percentage of correct predictions/hits.

The Matthews correlation coefficient (MCC), which was computed as , is a statistical parameter that assesses the quality of the binary classification for each model. The MCC accounts for both true and false positive predictions and is regarded as a balanced measure even when the two classes are different sizes. An MCC equal to 1 is regarded as a perfect prediction an MCC close to 0 is regarded as a random prediction. In these formulas, TP (true positive) represents the number of correctly predicted transporters, TN (true negative) represents the number of correctly predicted non-transporters, FP (false positive) represents the number of non-transporters predicted as transporters, and FN (false negative) represents the number of transport proteins predicted as non-transporters.

All the parameters described above are threshold-dependent parameters therefore, the performance of a model depends on a threshold. An analysis of the area under the curve (AUC) of the receiver operating characteristic (ROC) curve overcomes the threshold dependence of the above metrics. The ROC curve plots the true positive proportion (TP/TP+FN, i.e., sensitivity) against the false positive proportion (FP/FP+TN, i.e., 1 - specificity) for each model. The area under this ROC curve provides a single measure on which to evaluate the performance of each model. This well-known threshold-independent ROC analysis enables the evaluation of the performance of a binary classifier system as the discrimination threshold of that system is varied. An AUC of 1.0 indicates a perfect prediction and an AUC of 0.5 indicates that the prediction is no better than a random guess.


Contenido

In 1912 Max Von Laue directed X-Ray's at crystallized copper sulfate generating a diffraction pattern. [3] These experiments led to the development of X-Ray Crystallography, and its usage in exploring biological structures. Pepsin crystals were the first proteins to be crystallized for use in X-Ray diffraction, by Theodore Svedberg. [4] The first tertiary protein structure, that of Myoglobin, was published in 1958 by John Kendrew. [5] During this time, modeling of protein structures was done using balsa wood or wire models. [6] With the invention of modeling software such as CCP4 in the late 1970's, [7] modeling is now done with computer assistance. Recent developments in the field have included the generation of X-Ray free electron lasers, allowing analysis of previously hidden structures [8] and the use of structural biology in assisting synthetic biology [9]

Biomolecules are too small to see in detail even with the most advanced light microscopes. The methods that structural biologists use to determine their structures generally involve measurements on vast numbers of identical molecules at the same time. These methods include:

Most often researchers use them to study the "native states" of macromolecules. But variations on these methods are also used to watch nascent or denatured molecules assume or reassume their native states. See protein folding.

A third approach that structural biologists take to understanding structure is bioinformatics to look for patterns among the diverse sequences that give rise to particular shapes. Researchers often can deduce aspects of the structure of integral membrane proteins based on the membrane topology predicted by hydrophobicity analysis. See protein structure prediction.


Métodos

CNT3 model building

To build the hCNT3 model the standard automodel routine of MODELLER-9v11 [26] and the vcCNT template structure (PDB id: 3TIJ) were used. A small molecule ligand uridine, a sodium ion and two water molecules which were present in the binding site of the crystal structure of vcCNT (see Fig. 2d) were also added. Thus, the proper orientation of side chains inside the hCNT3 binding site was preserved during the model building procedure. To build the model of the hCNT3 monomer only the fragment of the full 691-residue long sequence of hCNT3 (Uniprot id: Q9HAS3) was used. Namely, the N and C-terminus which were predicted to be outside the membrane (see Uniprot) were cut out leaving the 522-residue hCNT3 sequence (see Fig. 2e) corresponding to the residue range 91 – 612 from the Q9HAS3 entry. The lowest energy model, according to the DOPE energy function, of the hCNT3 monomer out of 100 generated was selected and used in the subsequent loop refinement. The refinement of the hCNT3 monomer loops was performed in Rosetta3 using the cyclic coordinate descent algorithm (CCD) [29]. To preserve efficiency of sampling of conformational space loop refinement simulations were divided in three separate categories. The first one was dedicated to the loop refinement of the 185 - 194 sequence region, the second one to the 128 - 136, 234 - 237, 258 - 266 and 317 - 341 sequence regions and the third one to the 486 - 493 sequence region. In each category 1000 loop models were generated. All 1000 models generated in each loop category were subjected to the clustering analysis with the Rosetta cluster application. From each category 20 cluster representatives, each of which had the lowest total Rosetta score within its cluster, were selected. All the cluster representatives were combined with each other to generate 8000 (20 × 20 × 20) possible loops combinations. Each loop combination was used to build one model of the hCNT3 homotrimer using the vcCNT template structure (PDB id: 3TIJ) and the MODELLER procedure described above. Here, the 3-fold symmetry of the hCNT3 homotrimer was kept. The DOPE potential was used to select the best model of hCNT3 out of all 8000 generated. That 1566-residue long hCNT3 model (all three subunits: 3 × 522 residues) was cut to the 1350-residue long model by removing N-termini of the subunits B and C. That 1350-residue long model of hCNT3 was subjected to de novo folding of N-terminus of the subunit A with Rosetta Broker [25]. For the Broker simulation all standard settings for Rosetta3 were used (see Additional file 1: Table S1–S2). Namely, implicit membrane energy terms described in details in [30] and the fragment library (3- and 9-residue long fragments) obtained with Robetta (http://robetta.bakerlab.org/fragmentsubmit.jsp) were used. The consensus membrane topology predictor TOPCONS [31] and the hCNT3 Uniprot entry (id: Q9HAS3) were used to detect positions of three N-terminal transmembrane helices (TMHs) (see Fig. 2e). Additionally, the sequence profile-based lipophilicity prediction was performed and used in the Broker simulation. During the Broker simulation only the N-terminal 108-residue long fragment in the first subunit A with the predicted three TMHs was kept flexible. The rest of the homotrimer was kept as a rigid body. Nevertheless, various approaches were tested (data not shown) before the final modeling protocol was decided. Namely, longer N-terminal fragments, 198- and 247-residue long, including the 90- and 139-residue long membrane regions of hCNT3 were folded de novo without the rest of the hCNT3 homotrimer. Also, the short, 108-residue long N-termini only in the presence of the subunit A structure was folded. Yet, it turned out that the best option for the Broker simulation was folding of the short, 108-residue long N-termini of the subunit A with the presence of other subunits B and C forming the whole 1350-residue long hCNT3 homotrimer. 10,000 models were generated and clustered using the Rosetta3 cluster application. Top ten low-energy models from the most populated cluster of the hCNT3 models according to the Rosetta total score were selected and visually inspected. One selected model was used as a template to build the final hCNT3 homotrimer model with the described above MODELLER procedure. The N-terminal region with three TMHs predicted de novo was repeated in all three subunits to ensure the 3-fold symmetry of the homotrimer. A total number of 20 hCNT3 homotrimer models were generated and the lowest energy model according to DOPE was subjected to the further analysis and the MD simulation.

a The crystal structure of the vcCNT homotrimer (PDB id: 3TIJ) shown in the extracellular, membrane and intracellular view, respectively. B A homology model of the hCNT3 homotrimer superposed on the crystal structure of vcCNT (grey) shown in the extracellular, membrane and intracellular view, respectively. C A homology model of the hCNT3 homotrimer superposed on the low-energy structure obtained from the 1956 frame out of all 5000 frames of the 100 ns MD simulation, shown in the extracellular, membrane and intracellular view, respectively. D The binding site of the uridine molecule (shown in green) and the sodium ion (shown as a violet sphere) located inside the crystal structure of vcCNT. The polar contacts between uridine and the transporter were depicted with yellow dashed lines. The indicated Gln154 in vcCNT corresponds to Gln251 in the model of hCNT3. mi The sequence alignment of the template sequence (vcCNT) and the target sequence (hCNT3). Transmembrane helices (TMHs) are shown in red, extracellular and short helices (EH) in green, amphipathic helices (IH) are shown in blue and finally helices outside the lipid bilayer (HP) are shown in grey

Molecular dynamics simulation

The MD simulation was performed using the GPU-accelerated NAMD [32] software with the CHARMM27 [33] all-atom force field and periodic boundary conditions. Electrostatic interactions were computed using the particle-mesh Ewald method (PME) with a real space cutoff of 1.0 nm. The Lennard-Jones interactions were also cut off at 1.0 nm. The hCNT3 homotrimer model was inserted in a pre-equilibrated palmitoyloleoylphosphatidylcholine (POPC) membrane with VMD [34, 35]. The final lipid membrane was composed of 349 lipids. The system was solvated using the TIP3P water model (41,236 water molecules) and neutralized by adding 35 chloride counterions. Aspartic acid, arginine, glutamic acid, and lysine residues were used in their physiological protonation states. Neither uridine nor sodium ion molecules which were present in the vcCNT template structure were added to the system. The final system contained a total number of 195,438 atoms. The equilibration phase started with the 1 ns long melting of lipid tails while the rest of the system remained fixed. Then, after the steepest descent system minimization only protein coordinates were harmonically restrained and the 2 ns equilibration of the whole system was performed. Finally, the harmonic constraints were released and the further equilibration of the whole system lasted for 2 ns. The size of the final periodic box after the equilibration phase was 14.8 nm × 14.5 nm × 105 nm. The 100 ns production run was executed using a 2 fs time step with a snapshot of the system conformation and its energy saved every 20 ps and 10 ps, respectively. The pressure control was provided by using a modified Nosé-Hoover method in which Langevin dynamics is used to control fluctuations in the barostat. The thermostat was provided by Langevin dynamics with damping coefficient of 1/ps. The simulation was conducted at the conditions of 300 K and 1 atm. RMSD plots (see Figs. 3, 4, 5 and 6) describing the hCNT3 behavior during the MD simulation were prepared with VMD.

The heavy atom RMSD plot computed for all 5000 frames recorded during the 100 ns MD simulation. RMSD was computed for the entire hCNT3 homotrimer and its three subunits with respect to the first frame of the MD simulation

CRFR1 model building

To build the CRFR1 model a standalone version of GPCRM described previously [5] was used. The human glucagon receptor (GCGR) structure (PDB id: 4L6R) [36] from the secretin-like branch of the GPCR family was selected as a template. To generate the CRFR1 model a PDB sequence was used (PDB id: 4K5Y, Uniprot entry: P34998, isoform 2 – CRF-R2). The isoform 2 differs from the canonical CRF-R1 sequence only in such way that a part of the sequence is missing. GPCRM generated 3000 models. Only one out of the ten best models proposed by GPCRM was selected for the next stage based on the RMSD criterion referring to the crystal CRFR1 structure (PDB id: 4K5Y). The membrane topology prediction for the Rosetta Broker input was extracted directly from the CRFR1 model. The Broker simulations were divided into 3 stages. In the first stage, only the N-terminal fragment of the transmembrane helix 1 (TMH1) was reconstructed (2000 models) and the lowest RMSD model was selected. In the next step, TMH2, TMH3, TMH4, TMH5, TMH7 were rebuilt (30,000 models) and again the lowest RMSD model with respect to the crystal structure of CRFR1 was selected. In the final step of the Broker simulation TMH6 was reconstructed to fit the native structure [28] of CRFR1 (20,000 models). As it was tested before [5] the best way to impose disulfide bonds in a GPCR model is to use MODELLER. For that reason, the last modeling stage was devoted to the MODELLER reconstruction of disulfide bonds which were slightly deformed during the Broker simulation (100 models). The lowest MODELLER objective function model was selected for the antagonist docking in Autodock VINA [37].

As it was mentioned above, the main selection criterion in all the CRFR1 modeling stages was RMSD with respect to the CRFR1 crystal structure (PDB id: 4K5Y). The reason for that was the main purpose of the current work. Namely, the current work was not focused on the assessment of the Rosetta Broker force field accuracy. The accuracy of knowledge-based force fields in the membrane protein structure prediction is an important topic [38] but outside the scope of this study. Here, only the best possible results which could be obtained with the current force field and the current sampling algorithm implemented in Broker were examined. That is why only the RMSD criterion was used and not the energy criterion for the CRFR1 models selection.

Small molecule docking

The binding mode of the CRFR1 antagonist CP-376395 is well described in [28] and the current study was not focused on the antagonist docking itself. Instead, this work was focused on the assessment of the quality of the CRFR1 homology model in the binding site area and detection of possible atom clashes. For that reason, the CP-376395 molecule was placed exactly in the same position inside the CRFR1 homology model as in the crystal CRFR1 structure. What is more, only the local refinement of the binding site was performed with Autodock VINA [37] before computing the value of the empirical docking scoring function which estimated the free energy of the ligand binding. The free energy of the antagonist binding which reflected steric clashes between atoms [37] was provided for three cases. The first case was the crystal structure of the CRFR1 complex with the CP-376395 antagonist (PDB id: 4K5Y). The second case was the template-based CRFR1 model built by GPCRM with CP-376395 transferred from the crystal CRFR1 structure and placed exactly in the same position and orientation. The third case was the CRFR1 model built by GPCRM but refined with the Broker algorithm with CP-376395 transferred from the crystal CRFR1 structure (PDB id: 4K5Y). In the all three cases the standard Autodock VINA settings were used together with the local_only option and the 20Åx20Åx20Å searching space size.

Single nucleotide polymorphisms

Single nucleotide polymorphisms (SNPs) for hCNT3 were downloaded from the UCSF Pharmacogenetics of Membrane Transporters (PMT) database (http://pharmacogenetics.ucsf.edu) (HGNC id: 16,484, HGNC symbol: SLC28A3) [39]. SNPs for the CRFR1 receptor were obtained from the National Institute of Health Short Genetic Variations database (dbSNP) [40] (id: 1394) and refer to the isoform 1 (CRF-R1). Nevertheless, sequence numbering for SNPs was adjusted to fit the isoform 2 sequence (CRF-R2) which was used to build the CRFR1 model and was included in the PDB entry for that receptor (PDB id: 4K5Y).


Transmembrane helix prediction methods

Claros, M. G., & Von Heijne, G. (1994). TopPred II: an improved software for membrane protein structure predictions. Computer Applications in the Biosciences CABIOS DOI

Rost, B., Casadio, R., Fariselli, P., & Sander, C. (1995). Transmembrane helices predicted at 95% accuracy. Protein Science DOI

Tusnády, G. E., & Simon, I. (2001). The HMMTOP transmembrane topology prediction server. Bioinformática DOI

Krogh, A., Larsson, B., von Heijne, G., & Sonnhammer, E. L. (2001). Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. Revista de biología molecular DOI

Hirokawa, T., Boon-Chieng, S., & Mitaku, S. (1998). SOSUI: classification and secondary structure prediction system for membrane proteins. Bioinformática DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2004). A combined transmembrane topology and signal peptide prediction method. Revista de biología molecular DOI

Käll, L., Krogh, A., & Sonnhammer, E. L. L. (2005). An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformática DOI

Jones, D. T. (2007). Improving the accuracy of transmembrane protein topology prediction using evolutionary information. Bioinformática DOI

Reynolds, S. M., Käll, L., Riffle, M. E., Bilmes, J. a, & Noble, W. S. (2008). Transmembrane topology and signal peptide prediction using dynamic bayesian networks. PLoS Computational Biology DOI

Bernsel, A., Viklund, H., Falk, J., Lindahl, E., Von Heijne, G., & Elofsson, A. (2008). Prediction of membrane-protein topology from first principles. procedimientos de la Academia Nacional de Ciencias DOI

Viklund, H., Bernsel, A., Skwark, M., & Elofsson, A. (2008). SPOCTOPUS: a combined predictor of signal peptides and membrane protein topology. Bioinformática DOI

Nugent, T., & Jones, D. T. (2009). Transmembrane protein topology prediction using support vector machines. Bioinformática BMC DOI


Ver el vídeo: Proteinas de Membrana - Fisiología I - Medicina (Mayo 2022).