Todavía no se conoce su función, pero se especula que están relacionadas con temas tan diversos como la progresión de enfermedades o la aparición de ciertos tipos de cáncer, por lo que tienen un gran potencial terapéutico.
Las proteínas son una parte esencial de la vida tal y como la conocemos. Se trata de moléculas generalmente grandes que tienen función estructural en la célula o activa en forma de enzimas, que se encargan de favorecer los procesos que permiten a la célula hacer sus funciones. Todas las proteínas del organismo se encuentran codificadas en el ADN, que se encuentra en el núcleo celular conformando el libro de instrucciones llamado genoma. Concretamente, la región del ADN que contiene la información para construir las proteínas se denomina genoma codificante, y apenas supone un 1% del total del genoma.
Pero el 99% del ADN restante, anteriormente conocido como «ADN basura» no está vacío. En esa zona menos estudiada del genoma hay sistemas de regulación, de defensa y parte estructural necesaria para que todo funcione correctamente. Además, en la actualidad se están descubriendo regiones que también transcriben proteínas, solo que se trata de proteínas muy pequeñas y de las que no se conoce exactamente su función. Por ello, se las conoce como microproteínas, y parece que están involucradas en un gran número de procesos esenciales.
Por lo general, una proteína promedio está formada por miles o decenas de miles de pequeños bloques denominados aminoácidos. Pero estas microproteínas apenas tienen del orden de la centena. No se conoce con exactitud el número de microproteínas que puede producir el cuerpo humano, aunque se especula que pueden ser miles, y que tienen funciones importantes en la salud y el desarrollo de enfermedades.
Mirando al lado oscuro del ADN
Las microproteínas suelen eludir los sistemas tradicionales de detección, por lo que para estudiarlas los investigadores han de recurrir a métodos indirectos. Esto es, en vez de dedicarse a buscar las posibles proteínas, los científicos investigan el genoma para ver si existe alguna región que parezca que puede producir una microproteína. Una vez detectada esa región del genoma, analizan su información y entonces buscan indicios de la proteína concreta.
Por hacer una analogía, es como si, en ornitología, en vez de salir al campo a ver si por suerte encontramos un ejemplar de un pájaro concreto, buscamos primero en un libro su hábitat y sus hábitos. Una vez conociendo esto, nos dirigimos al lugar donde es más probable que encontremos al pájaro y entonces comenzamos a buscar. Así la probabilidad de éxito es mayor.
Pero analizar el genoma no es tarea sencilla. Se trata de un enorme libro del 3 mil millones de pares de bases o “letras”. Es decir, equivalente a unos 1500 ejemplares de El Quijote. En ese enorme libro, los investigadores tendrían que hallar secuencias específicas, pero a su vez distintas, para encontrar las microproteínas; una tarea ardua y tediosa para cualquier humano. Además, existen regiones en las que parece que hay microproteínas, pero que se trata de señuelos que no codifican información. Por ello, para detectar las zonas de interés, investigadores del Instituto Salk de Estudios Biológicos han entrenado a una inteligencia artificial a partir de las secuencias de microproteínas ya conocidas.

Brendan Miller (izquierda) y Alan Saghatelian (derecha) de pie en su laboratorio, mientras ejecutan ShortStop en el escritorio junto a ellos.
La IA en el lado oscuro
El sistema, al que han denominado ShortStop, permite discriminar de forma razonablemente acertada aquellas regiones codificantes de microproteínas, lo que podría acelerar la investigación en este prometedor campo de la biología.
Como indica el primer autor del estudio, Brendan Miller, investigador postdoctoral del laboratorio de Saghatelian, «Lo que hace a ShortStop una herramienta tan potente es que funciona con conjuntos de datos comunes, como los de secuenciación de ARN, que muchos laboratorios ya utilizan». Por tanto, esto abre las puertas a la búsqueda de microproteínas en tejidos sanos y enfermos a una escala nunca vista hasta ahora. Así, pretenden revelar conocimientos sobre biología y abrir las puertas a nuevos diagnósticos y tratamientos para enfermedades como el cáncer o el alzhéimer.

Imagen de microscopía que muestra células expresando una nueva microproteína predicha por ShortStop (verde). En la imagen se ven los núcleos celulares teñidos de azul y la proteína en verde. El patrón sugiere que las microproteínas se localizan en los endosomas, que son orgánulos responsables de clasificar y transportar la carga celular, o en los lisosomas, que son orgánulos que recogen y eliminan los desechos celulares.
De hecho, los investigadores ya han podido emplear ShortStop para identificar una microproteína que se encontraba en una mayor concentración en células procedentes de tumores malignos de pulmón. Para encontrarla, analizaron los datos genéticos disponibles en bases de datos y compararon los tejidos sanos con estas células. Gracias a este análisis hallaron una serie de secuencias que podrían producir microproteínas y, tras analizarlas, descubrieron que una de ellas variaba de forma significativa. La función concreta de esta microproteína escapa de su conocimiento, pero por lo pronto podría servir como un marcador. Es decir, si se detecta una expresión exacerbada de esta microproteína, puede indicar que se está formando un cáncer de pulmón que todavía no se pueden detectar con técnicas tradicionales. De este modo, se pueden realizar más pruebas y así, comenzar con tratamientos de forma precoz para maximizar la supervivencia.
National Geographic News. D. P. R. Traducido al español