Resucitando proteínas CRISPR-Cas ancestrales de hace millones de años
Es posible resucitar proteínas Cas9 que podrían haber existido en bacterias hace muchos millones de años, y funcionan como herramientas de edición genética en células humanas
El hallazgo que transformó la biología: CRISPR-Cas
Es indudable que las herramientas CRISPR-Cas nos han cambiado la vida a muchos investigadores. Estos sistemas CRISPR-Cas fueron originalmente descritos por Francis Mojica como parte de un sistema de defensa adaptativo que usan las bacterias para defenderse de los virus (los bacteriófagos) que las atacan. Años después, dos investigadoras, Emmanuelle Charpentier y Jennifer Doudna, las convirtieron en herramientas de edición genética, capaces de inactivar o inducir la edición dirigida de cualquier gen de cualquier organismo. Estas investigadoras acabaron recibiendo un merecido Premio Nobel de Química en 2020. El resto es ya historia de la biología.
La inmensa mayoría de laboratorios en el mundo seguimos usando el sistema CRISPR-Cas9 de la bacteria Streptococcus pyogenes (SpCas9), que fue el primer sistema completo descrito por Charpentier y Doudna en su artículo en la revista Science publicado en junio de 2012. Algunos años después Feng Zhang describió una nucleasa Cas9 algo más pequeña, derivada de un sistema CRISPR-Cas9 de Staphylococcus aureus (SaCas9). Esta nucleasa SaCas9 era más pequeña y por ello podía incluirse todo el sistema CRISPR-Cas correspondiente en una sola partícula viral de virus adenoasosiados (AAV), en lugar de tener que usar dos, como es el caso de la SpCas9, pues es necesario usar otro virus para incluir la guía ARN que dirija el corte y el ADN molde que se quiera utilizar para recombinar el gen deseado tras el corte generado por la nucleasa.
Tanto Streptococcus pyogenes como Staphylococcus aureus son bacterias patógenas para los seres humanos, causantes habituales de infecciones por todo el cuerpo (S. aureus) o de otitis y laringitis (S. pyogenes), y, por ello, nuestro sistema inmunitario tiene ya anticuerpos contra ellas y contra todos sus componentes, incluidas las proteínas SpCas9 y SaCas9. De esto se dio cuenta el investigador Matthew Porteus (Stanford University, CA, EE.UU.), demostrando que la mayoría de las personas tenemos anticuerpos contra estas proteínas Cas9 de estas dos bacterias. Este contratiempo inesperado se publicó en la revista Nature Medicine. Lógicamente no queremos usar como proteína terapéutica algo contra lo cual el sistema inmunitario reaccionará atacándolo. Por eso se han intentado encontrar muchas otras nucleasas Cas9 y otras Cas derivadas de otras bacterias, alejadas de cualquier interacción con los seres humanos.
El número de sistemas CRISPR-Cas9 descritos ha aumentado rápidamente, así como la descripción de proteínas Cas a partir de metagenomas, a partir de predicciones bioinformáticas, o de bacterias y arqueas de los lugares más recónditos y extremos del planeta, como el desierto de Atacama.
En busca de proteínas Cas9 en el pasado remoto
Una alternativa a buscar nuevas Cas9 en bacterias que habitan los rincones más inhóspitos de la Tierra es buscarlas no en el espacio, sino en el tiempo, intentando resucitar proteínas ancestrales Cas que debieron existir hace muchos millones de años.
El principal problema de esta aproximación es la falta de registro fósil y de restos orgánicos a partir de los cuales obtener ADN.
Hace pocas semanas se publicó el ADN más antiguo recuperado de unos minerales de Groenlandia que tenía unos dos millones de años de antigüedad. Esto puede parecer mucho, pero, a nivel geológico, teniendo en cuenta que se estima que nuestro planeta tiene unos 4 500 millones de años, es una nimiedad.
Hace faltar ir más allá de dos millones de años, mucho más. ¿Cómo lo hacemos? Esto es lo que consigue la paleoenzimología: reconstruir secuencias de proteínas ancestrales que debieron existir en organismos ya extintos.
La paleoenzimología trabaja a partir de las secuencias de estas proteínas en un determinado grupo de organismos actuales y de sus relaciones filogenéticas, aplicando técnicas estadísticas de máxima verosimilitud. Con la suficiente potencia computacional pueden inferirse las secuencias ancestrales más probables, que podrían haber existido, que son compatibles y que permiten explicar la diversidad actual de secuencias.
Calibrando el análisis con una línea de tiempo es posible deducir la edad en la que se sitúan los nodos de proteínas ancestrales que dieron lugar a diferentes grupos de proteínas Cas9 actuales.
El árbol filogenético reconstruye, mediante un algoritmo de máxima verosimilitud, las relaciones evolutivas que hay entre las secuencias de proteínas Cas9 de hasta 59 especies de bacterias actuales, más o menos relacionadas, con indicación de los nodos a partir de los cuales se han obtenido las secuencias de proteínas Cas ancestrales.
Identificados ancestros de hasta hace 2 600 millones de años
Con la estrategia descrita, el equipo de Raúl Pérez-Jiménez obtuvo las secuencias de proteínas Cas9 de un conjunto de 59 bacterias actuales, evolutivamente relacionadas, en mayor medida del género Streptococcus y en menor medida del género Enterococcus, Clostridium y Bifidobacterium, entre otras. Pérez-Jiménez puso a trabajar un potente ordenador con un algoritmo de máxima verosimilitud para inferir las proteínas Cas9 ancestrales más probables que podrían haber existido y haber dado lugar a la diversidad de proteínas Cas9 actuales.
Calibrando la ubicación de los nodos con una línea temporal se establecieron cinco proteínas Cas9 ancestrales, llamadas PDCA, PCA, SCA, BCA y FCA, que pudieron existir hace 37, 137, 200, 1 000 y 2 600 millones de años respectivamente. Estas edades exceden, en mucho, la posibilidad de encontrar restos de cualquier ADN antiguo, actualmente limitado hasta los 2 millones de años. Las proteínas Cas9 ancestrales resultantes se parecen a la SpCas9 actual entre un 56% (las más antiguas) y un 93% (las más modernas) de identidad molecular.
Entre los dinosaurios y las primeras células eucariotas
Para ubicar mentalmente las edades estimadas que tienen estas nucleasas Cas ancestrales resucitadas informáticamente recordemos que la Tierra tiene una edad de ~4.500 millones de años; las evidencias más antiguas de células procariotas son de hace ~3.500 millones de años; las células eucariotas (con núcleo, producto de la fusión de varias bacterias según la teoría endosimbionte propuesta por Lynn Margulis) aparecieron hace ~1.850 millones de años; la explosión Cámbrica que dio lugar a la mayoría de grupos de animales que existen hoy en día tuvo lugar hace ~580 millones de años; el Braquiosaurio (uno de los dinosaurios más grandes que jamás existieron, el primero que sale en la película Parque Jurásico) se extinguió hace ~150 millones de años y el resto de dinosaurios se extinguieron hace 65 millones de años, exceptuando los que dieron lugar a las aves actuales.
Una vez obtenidas las secuencias de las proteínas Cas ancestrales se sintetizaron las secuencias correspondientes de ADN que las codificaban, usando codones optimizados para la bacteria Escherichia coli, para obtener y purificar proteínas a partir de las cuales hacer los experimentos in vitro.
Las propiedades de Cas como tijera genética
La caracterización funcional de las cinco proteínas Cas ancestrales resucitadas se hizo a dos niveles: in vitro, en el laboratorio, e in vivo, en células humanas.
En primer lugar se constató que, a medida que nos alejamos del momento actual, las Cas ancestrales más antiguas tienen mayor tendencia a tener una actividad de corte de una de las dos cadenas del ADN (actividad nickasa) frente a una actividad de corte de las dos cadenas del ADN, como tienen las Cas9 actuales.
En segundo lugar se detectó actividad de corte de ADN de cadena sencilla y de ARN (que también es de cadena simple) también en las Cas ancestrales más antiguas, mientras que las Cas ancestrales más «modernas» mostraban preferentemente una actividad de corte de ADN de doble cadena.
Todas ellas reconocen, aparentemente y con mayor o menor acierto, una molécula de ARN que guía el proceso, derivada de la estructura que conocemos para la SpCas9 actual, que probablemente no esté optimizada para todas estas Cas ancestrales.
El mundo genético original
Estas observaciones encajan con un mundo original esencialmente basado en moléculas de ADN y ARN monocatenarias, un mundo ARN que es una de las hipótesis más aceptadas del origen del material genético en los seres vivos. De ahí que las Cas ancestrales sea lógico que prefieran cortar moléculas de cadena sencilla.
La especificidad de las diferentes Cas ancestrales se evaluó investigando sus requerimientos de la secuencia PAM (Protospacer Adjacent Motif), que es otro de los hallazgos y nombres que propuso Francis Mojica. PAM permite a las bacterias diferenciar entre la secuencia a cortar presentes en el genoma del virus de la misma secuencia, pero insertada en el genoma bacteriano. De este modo evitan suicidarse, degradando su propio genoma.
La SpCas9 actual necesita tener la serie de tres nucleótidos «NGG» al lado de la secuencia complementaria a la molécula de ARN guía. Este requerimiento se mantenía para las Cas ancestrales intermedias, de 37, 137 y 200 millones de años. Las SpCas9 más antiguas, BCA y FCA, no parecen necesitar una secuencia PAM específica para poder cortar, y aceptan prácticamente cualquier secuencia adyacente a la reconocida por la guía ARN.
Todo esto puede interpretarse como una evolución desde proteínas Cas sin necesidad de PAM hasta las actuales, que necesitan una PAM (distinta para cada Cas9 de cada bacteria). Tiene sentido si pensamos que la diversidad original de secuencias de virus debía ser mucho menor que la diversidad de virus actuales, por lo que la necesidad de añadir el paso de verificación con PAM debió aparecer con posterioridad.
Prueba de su eficacia en células humanas
Para poder evaluar la capacidad de las nucleasas Cas ancestrales para actuar como herramientas de edición genética se obtuvieron nuevas secuencias de ADN que codificaban las mismas secuencias de proteína, pero con un uso de codones optimizado para células humanas. Los plásmidos resultantes, portadores de construcciones que expresaban estas secuencias de Cas ancestrales, se transfectaron a células humanas en cultivo HEK293T junto sus guías de ARN dirigidas contra dos genes humanos cualquiera. Se escogieron los genes TYR y OCA2, cuyas mutaciones causan sendos tipos de albinismo, la enfermedad rara que investigamos en el Centro Nacional de Biotecnología (CNB-CSIC).
El resultado no pudo ser más sorprendente. Las cuatro Cas ancestrales datadas entre 37 y 1 000 millones de años atrás, las denominadas PDCA, PCA, SCA y BCA, funcionaban relativamente bien en células humanas. Todas ellas promovían la edición de los dos genes seleccionados, con eficiencias de edición genética (medidas como porcentaje de secuencias de estos dos genes con inserciones o deleciones, INDELs) que oscilaban entre un 5% y más del 80%.
En general, la eficiencia decaía a medida que nos alejábamos en el tiempo. Las proteínas Cas ancestrales más «modernas» PDCA, PCA y SCA, datadas hasta 200 millones de años, son las que mejor funcionaban. Las dos más antiguas, BCA y FCA, registraron comparativamente menor actividad de edición. Respecto a la más antigua, FCA, datada hace 2.600 millones de años, apenas se pudo detectar un porcentaje de INDELs significativo. De nuevo el resultado encajaba con lo esperado, teniendo en cuenta que los resultados in vitro indicaban que la Cas ancestral FCA prefería cortar moléculas de ADN o ARN de cadena simple, y no doble cadena del ADN.
Dejan la misma cicatriz
Más sorprendente todavía: la cicatriz que dejan estas nucleasas Cas ancestrales es muy similar a la que deja la SpCas9 de referencia. En el gráfico anterior puede verse que los nueve alelos más frecuentes encontrados tras transfectar las células humanas HEL293T, bien con la SpCas9 o con PDCA, PCA, SCA y BCA, son comparables, lo que sugiere que su modo de acción (de corte de doble cadena), a pesar de los millones de años que sobre el papel las separan, no ha variado sustancialmente. Además, el sistema de reparación endógeno celular se encuentra con cortes de doble cadena similares que, lógicamente, también acaba reparando de forma similar, según la secuencia de ADN y su contexto.
En definitiva, en este estudio demostramos que es posible revitalizar / resucitar / reactivar secuencias ancestrales de proteínas nucleasas Cas que debieron existir en bacterias que vivieron entre 37 y 2 600 millones de años atrás.
Las Cas ancestrales resucitadas muestran actividad como herramientas CRISPR de edición genética, validada funcionalmente en células humanas. También se intuye que hay margen para la optimización de estos sistemas CRISPR-Cas ancestrales, por ejemplo modificando la molécula guía del ARN para adaptarla mejor a cada una de las nucleasas resucitadas.
Los siguientes pasos serán validar estas Cas ancestrales en modelos más complejos, como por ejemplo en modelos animales, en ratones. Las investigaciones futuras sobre seguridad y eficacia de estos sistemas servirán para evaluar su potencial como herramientas de edición genética aplicables en biología, biotecnología y biomedicina.
Por:
Lluís Montoliu
Investigador científico del CSIC Centro Nacional de Biotecnología (CNB - CSIC)