Información

¿En qué paso debo aplicar un filtro de detección al preprocesar datos de microarrays? (Antes / después de la normalización, eliminación de efectos por lotes)

¿En qué paso debo aplicar un filtro de detección al preprocesar datos de microarrays? (Antes / después de la normalización, eliminación de efectos por lotes)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Cuál es la mejor práctica al preprocesar datos de microarrays utilizando un filtro de detección (en el valor p del escáner)?

Supongamos que tengo un conjunto de datos de microarrays que tengo que normalizar con Loess y corregir con ComBat. ¿Cuándo debo aplicar un filtro de detección, en relación con los otros pasos del proceso?

En mi diseño experimental, tengo dos tuberías para probar:

  • Normalizar por muestra entre 0 - 1
  • Combate
  • Normalización de loess entre muestras

y

  • Normalización de loess entre muestras
  • Combate

¿Existe alguna práctica recomendada sobre el momento de aplicar un filtro de detección?


Mi comentario anterior sigue en pie; siempre que su filtro de detección no dependa de la normalización de sus datos, su filtro de detección puede existir en cualquier lugar.

Sin embargo, dado que parece que sabe que desea ejecutar un PCA y conoce todas las normalizaciones que le gustaría probar, lo más sencillo es ejecutar primero toda su normalización, que ella que tener que filtrar los vectores de alta puntuación que parece ser causado por la variación entre muestras.


Normalización y cuantificación de la expresión diferencial en microarrays de expresión génica

Christine Steinhoff es un científico postdoctoral en el Departamento de Biología Molecular Computacional del Instituto Max Planck de Genética Molecular en Berlín. Su interés de investigación se centra en los mecanismos reguladores de genes epigenéticos, especialmente basados ​​en enfoques experimentales de expresión génica.

Martin Vingron es Director del Instituto Max Planck de Genética Molecular en Berlín y Jefe del Departamento de Biología Molecular Computacional. Su interés de investigación actual radica en la utilización de datos de expresión génica, así como datos evolutivos para elucidar los mecanismos reguladores de genes.

Christine Steinhoff, Martin Vingron, Normalización y cuantificación de la expresión diferencial en microarrays de expresión génica, Sesiones informativas en bioinformática, Volumen 7, Número 2, junio de 2006, páginas 166–177, https://doi.org/10.1093/bib/bbl002


Abstracto

La integración de datos genómicos es un objetivo clave que se debe lograr hacia el análisis de datos genómicos a gran escala. Este proceso es muy desafiante debido a las diversas fuentes de información que resultan de los experimentos genómicos. En este trabajo, revisamos métodos diseñados para combinar datos genómicos registrados a partir de experimentos de expresión génica de microarrays (MAGE). Se ha reconocido que la principal fuente de variación entre diferentes conjuntos de datos MAGE se debe a los denominados "efectos por lotes". Los métodos revisados ​​aquí realizan la integración de datos eliminando (o más precisamente intentando eliminar) la variación no deseada asociada con los efectos por lotes. Se presentan en un marco unificado junto con una amplia gama de herramientas de evaluación, que son obligatorias para evaluar la eficiencia y la calidad del proceso de integración de datos. Proporcionamos una descripción sistemática de la metodología de integración de datos MAGE junto con algunas recomendaciones básicas para ayudar a los usuarios a elegir las herramientas adecuadas para integrar los datos MAGE para análisis a gran escala y también cómo evaluarlos desde diferentes perspectivas con el fin de cuantificar su eficiencia. Todos los datos genómicos utilizados en este estudio con fines ilustrativos se obtuvieron de InSilicoDB http://insilico.ulb.ac.be.


El transcriptoma humano

Matthias E. Futschik PhD,. Christine Sers PhD, en Patología Molecular (Segunda Edición), 2018

Bioinformática I: procesamiento básico de microarrays y datos de secuencia de ARN

Encontrar estructuras e información significativas en un océano de valores numéricos obtenidos en experimentos de transcriptomas es una tarea formidable y exige varios enfoques de procesamiento y análisis de datos. Aunque el tipo de análisis de datos depende naturalmente de las preguntas de investigación planteadas y de la plataforma técnica elegida, los primeros pasos comunes son el preprocesamiento y la normalización de los datos para obtener cantidades y medidas comparables para la expresión génica (Fig. 7.4). Posteriormente, estas medidas se fusionan en una denominada matriz de expresión génica, que es básicamente una tabla con filas correspondientes a transcripciones específicas y columnas correspondientes a muestras. La matriz construida contiene dos tipos de perfiles de expresión diferentes en una forma compacta. El conjunto de valores de expresión de los diferentes genes medidos en una muestra constituye el perfil de expresión de la muestra. Asimismo, la expresión de un gen a través de las diferentes muestras constituye el perfil de expresión de este gen. Por tanto, las columnas de la matriz de expresión génica proporcionan los perfiles de las muestras, mientras que las filas proporcionan los perfiles de los genes. Esta matriz puede entonces ser examinada para la detección de genes con cambios de pliegues significativos en la expresión, agrupamiento y clasificación de perfiles de expresión de muestras o genes, y perfiles funcionales [18]. En todas estas tareas, la visualización de datos juega un papel importante para el control de calidad y el descubrimiento de conocimientos. Cabe señalar que los primeros pasos del análisis pueden influir en el examen posterior. Por ejemplo, la elección de los procedimientos de preprocesamiento y normalización puede tener un impacto considerable en los resultados de la agrupación y la clasificación.

Figura 7.4. Flujo de trabajo bioinformático para análisis transcriptómico utilizando microarrays o tecnología RNA-seq.

Mientras que los datos de ambas tecnologías requieren un preprocesamiento distinto, los análisis de nivel superior pueden llevarse a cabo mediante enfoques similares o incluso los mismos.

Preprocesamiento de datos de microarrays

El primer paso de preprocesamiento de datos de microarrays es comúnmente la transformación logarítmica de las relaciones de señal. De esta manera, los cambios de pliegue del mismo orden de magnitud se vuelven simétricos alrededor de cero para la regulación al alza (abundancia de señal aumentada) y la regulación a la baja (abundancia de señal disminuida). Por ejemplo, usando la transformación log2, un cambio de doblez positivo o negativo de dos se muestra como 1 o -1, respectivamente. Las intensidades de los puntos suelen estar distribuidas de forma más equitativa a lo largo de la escala, lo que permite una detección más fácil del sesgo de intensidad o los efectos de saturación (Fig. 7.5). Además, la varianza de intensidades tiende a ser más homogénea con respecto a una escala de intensidad logarítmica en comparación con una lineal. A menudo se requiere una varianza homogénea para las pruebas estadísticas.

Figura 7.5. Representaciones gráficas de las intensidades de señal de una matriz de dos colores comparando líneas celulares de cáncer colorrectal derivadas de carcinoma primario (marcado por Cy3) y de una metástasis (marcado por Cy5).

Las intensidades de los puntos en ambos canales de fluorescencia se muestran utilizando escala lineal (A) y log2 (B). El uso de la escala log2 revela un comportamiento no lineal, es decir, un sesgo de tinte hacia Cy3 para manchas de baja intensidad. El diagrama MA presenta este sesgo de tinte aún más claramente y también un efecto de saturación en el canal Cy5 para intensidades grandes. (C) Para corregir el sesgo del tinte, una regresión local (línea roja) de M se puede realizar (D). Los residuos obtenidos de la regresión local, es decir, los cambios de pliegue registrados normalizados están bien equilibrados alrededor de cero en el gráfico MA.

Microarrays: normalización

Los datos de microarrays sin procesar a menudo se ven comprometidos por errores sistemáticos, como diferencias en las eficiencias de detección, el etiquetado de colorantes y los rendimientos de fluorescencia. Tales señales son corregidas por normalización procedimientos [19]. Dependiendo del diseño experimental y la técnica de microarrays aplicada, se utilizan dos esquemas de normalización principales: (1) entre-arreglo normalización para comparar las intensidades de señal entre diferentes microarrays y (2) dentro de la matriz normalización para el ajuste de señales de un solo microarray. Si bien la normalización entre matrices se usa comúnmente para la tecnología de chip Affymetrix, la normalización dentro de la matriz se aplica principalmente a matrices de dos colores para equilibrar ambos canales. Lo simple global La normalización, un procedimiento dentro del portaobjetos, supone que la mayoría de los genes analizados no se expresan diferencialmente y que, en consecuencia, la cantidad total de transcripciones permanece constante. Por lo tanto, las relaciones se pueden escalar linealmente al mismo valor medio constante en ambos canales. Alternativamente, se puede seleccionar un conjunto de genes domésticos, que se cree que se expresan por igual en ambas muestras. La mediana de estos genes se puede tomar para ajustar la intensidad en ambos canales mediante una transformación lineal, de modo que las medianas de intensidad de los genes de mantenimiento sean las mismas. El popular llamado cuantil la normalización debe tratarse con cuidado, ya que supone que la distribución general de los valores de expresión es exactamente la misma en diferentes muestras, lo que con frecuencia puede no ser el caso, especialmente en el análisis de muestras de cáncer [20]. Si se sospecha un sesgo de tinte en matrices de dos colores, el uso de un dependiente de la intensidad El procedimiento de normalización podría estar justificado [21]. Un método muy extendido consiste en realizar una regresión local de las relaciones de señal registradas. METRO con respecto a las intensidades registradas A y restar las proporciones regresadas de las proporciones brutas. Los residuos derivados de la regresión proporcionan los cambios de pliegue normalizados (figura 7.5C). Se requieren procedimientos de normalización adicionales, si las relaciones de intensidad del punto medidas muestran un sesgo espacial a través de la matriz.

Microarrays: visualización de datos

Las representaciones de parcelas son herramientas simples pero muy útiles para detectar artefactos u otras tendencias en los datos de microarrays. Las gráficas más básicas presentan las intensidades de los dos canales entre sí en una escala lineal o logarítmica (Fig. 7.5A y B). Más recientemente, los gráficos MA se han convertido en una herramienta popular para mostrar la relación de intensidad registrada (M) frente a las intensidades medias registradas (A). Aunque los gráficos MA básicamente son sólo una rotación de 45 ° con una escala posterior, revelan patrones dependientes de la intensidad más claramente que el gráfico original (Fig. 7.5C) [18].

Datos de secuencia de ARN

Para los nuevos usuarios de tecnologías RNA-seq, la cantidad de datos a analizar puede ser abrumadora. A diferencia del análisis de datos de microarrays, que se puede realizar incluso en computadoras portátiles, el análisis de datos NGS generalmente requiere el uso de múltiples CPU, suficiente memoria de computadora y espacio en disco de hasta terabytes incluso para un solo experimento. Las alternativas a las infraestructuras computacionales internas son las plataformas web de acceso público, como Galaxy (https://usegalaxy.org/), o el uso de la computación comercial en la nube. Sin embargo, el enfoque de la nube requiere mover los datos a través de Internet, lo que a menudo presenta un cuello de botella notorio dado el gran tamaño de los archivos. Para los investigadores que llevan a cabo algunos estudios, podría ser aconsejable comenzar con herramientas web y luego pasar a herramientas independientes si los recursos de hardware necesarios están disponibles localmente. R / Bioconductor (http://www.bioconductor.org/) proporciona una plataforma excelente, especialmente para el análisis de seguimiento, que ofrece numerosos paquetes complementarios para tareas específicas como la detección de expresión diferencial, análisis de enriquecimiento funcional, agrupamiento y clasificación, pero también requiere conocimientos básicos de secuencias de comandos.

RNA-seq: calidad de secuenciación y llamada de bases

La llamada de base (convertir los datos de intensidad medidos en secuencias y evaluar la calidad de la secuencia) se realiza normalmente mediante algoritmos proporcionados por el proveedor de la plataforma de secuenciación. Las secuencias identificadas y sus correspondientes puntuaciones de calidad se almacenan posteriormente en archivos de Fastq formato. La calidad de la llamada de base se presenta mediante un llamado Phred puntaje. La secuencia o partes de secuencias con puntuaciones Phred bajas indican posibles errores de secuencia y deben eliminarse. Además, las lecturas deben evaluarse para detectar la presencia de secuencias adaptadoras, que interfieren con el análisis posterior.

RNA-seq: mapeo de lectura y reconstrucción del transcriptoma

Para analizar e interpretar las lecturas producidas por RNA-seq, se debe determinar su posición dentro de una secuencia de referencia, proceso conocido como alineación o mapeo. Este es un proceso desafiante no solo debido a la gran cantidad de lecturas que se deben alinear, sino también debido a errores de secuenciación o mutaciones en la secuencia, que deben resolverse en el proceso de alineación. Para el mapeo de lecturas cortas, se han desarrollado numerosos programas utilizando diferentes estrategias computacionales. Varios de ellos utilizan la denominada transformación Burrows-Wheeler que se desarrolló originalmente para la compresión de archivos [22]. Permite la indexación de los genomas grandes y su utilización para un mapeo de lectura más rápido con memoria de computadora reducida. Alternativamente, partes de las lecturas denominadas semillas se asignan primero a la referencia, después de lo cual la alineación se extiende a la lectura completa [23]. Los resultados de los alineadores son archivos en formato Sequence Alignment / Map (SAM) o Binary Alignment / Map Bam (BAM), que presentan la ubicación cromosómica junto con las secuencias mapeadas como texto o codificación binaria, respectivamente [24].

Idealmente, a uno le gustaría usar el transcriptoma como referencia (alinee las lecturas directamente con el transcriptoma). Sin embargo, en la práctica, las lecturas están alineadas con el genoma, ya que (todavía) no se dispone de transcriptomas completos. Este procedimiento agrega una capa de complejidad para la secuenciación del ARN eucariota, ya que muchos genes se someten a empalme. La eliminación de intrones conduce a secuencias de transcripción que no corresponden a un tramo continuo en el genoma, sino que están compuestas por secuencias de exones distantes. Para reconstruir la estructura del exón de los genes, los programas de alineación intentan mapear las lecturas, que no pudieron alinearse en su longitud completa con el genoma, con uniones de empalme conocidas o predichas (ubicaciones donde se unen dos exones) [25], o dividirlas y mapearlas las diferentes partes leídas a diferentes exones [26]. Básicamente, las lecturas que solapan la secuencia del extremo 5 'de un exón y la secuencia del extremo 3' de otro indican que los dos exones se empalmaron juntos. Basándonos en el número de lecturas alineadas con los exones y uniones de empalme, podemos buscar cuantificar las diferentes isoformas de empalme, aunque esta tarea ha seguido siendo difícil y requiere suficiente profundidad de secuenciación.

Para permitir la comparación de la expresión génica dentro de una muestra o entre diferentes muestras, es necesario realizar un paso de resumen y normalización. El resumen proporciona la fuerza de la expresión génica, dadas todas las lecturas asignadas a su región cromosómica. Para esta cuantificación, las lecturas mapeadas se cuentan y dividen por la longitud del gen, ya que esperamos que los genes más largos conduzcan a más fragmentos y aquellos a más lecturas, incluso si la abundancia de la transcripción permanece igual. Para permitir la comparación de las ejecuciones de RNA-seq con un número diferente de lecturas totales, se lleva a cabo un paso de normalización adicional. En la versión más simple de normalización, esto se logra a través de una división adicional por el número total de lecturas mapeadas que producen valores RPKM (lecturas por kilo-base de modelo de exón por millón de lecturas) [25], como el número de lecturas mapeadas a un gen debe ser proporcional al número total de lecturas producidas. Alternativamente, se pueden elegir otros procedimientos de normalización que, por ejemplo, busquen mantener constante la expresión de genes domésticos [27] o minimizar el cambio general entre muestras [28].

RNA-seq: visualización de datos e inspección de mapas de lectura

Para la presentación visual de la asignación de lecturas a la secuencia de referencia, se han desarrollado varias herramientas de software como el Visor de Genómica Integrativa [29]. Como entrada, utilizan archivos SAM o BAM, así como anotaciones genéticas disponibles. Ayudan a inspeccionar la cobertura de genes específicos o a descubrir alteraciones genéticas. Por ejemplo, los datos de RNA-seq pueden ofrecer como subproducto la identificación precisa de polimorfismos de un solo nucleótido (SNP) en regiones con alta cobertura de lectura [30].


Conclusión

La señal EMG transporta información valiosa sobre el sistema nervioso. Entonces, el objetivo de este trabajo fue brindar información breve sobre EMG y revelar las diversas metodologías para analizar la señal. Se discutieron las técnicas para la detección, descomposición, proceso y clasificación de señales EMG, junto con sus ventajas y desventajas. El descubrimiento de un problema o desventaja en un método conduce a otros métodos mejorados. Este estudio señala claramente los diversos tipos de técnicas de análisis de señales EMG para que se puedan aplicar los métodos correctos durante cualquier diagnóstico clínico, investigación biomédica, implementaciones de hardware y aplicaciones de usuario final.


4. Discusión

DASC es un método eficaz para identificar efectos de lotes ocultos en grandes conjuntos de datos de consorcios. Nuestro método utiliza la reducción adaptativa de datos para obtener la estimación adecuada de datos "sin lotes". La salida de DASC es más estable y robusta debido al uso de la matriz de consenso y el método de reducción adaptativa de datos.

A partir del estudio de caso del conjunto de datos SEQC, DASC supera a todos los demás algoritmos comparados en este estudio en función de la medición de la pureza y la entropía. A partir del segundo estudio de caso, DASC identificó un fuerte efecto de lote que el estudio original pasó por alto, lo que verifica la eficacia de nuestro método y la importancia de la corrección por lotes. En un estudio de scRNA-Seq, DASC superó a los métodos existentes en la detección de variaciones de secuenciación diarias.

Además, mostramos que los resultados de DASC son independientes del supuesto de distribución de datos en comparación con PCA y sva. En conjunto, DASC es un algoritmo general y flexible para detectar efectos de lotes desconocidos. También se puede generalizar a otros conjuntos de datos ómicos.


Abstracto

El uso de datos de GC / MS sin procesar como el bloque X para el modelado quimiométrico tiene el potencial de proporcionar mejores modelos de clasificación para muestras complejas en comparación con el uso de la corriente iónica total (TIC), los cromatogramas / perfiles de iones extraídos (EIC / EIP) o integrados tablas de picos. Sin embargo, la abundancia de datos GC / MS sin procesar requiere alguna forma de selección de características / reducción de datos para eliminar las variables que contienen principalmente ruido del conjunto de datos. Sin embargo, existen varios algoritmos para la selección de características, debido al número extremo de variables (10 6 –10 8 variables por cromatograma), el tiempo de selección de características puede ser prolongado y computacionalmente costoso. A continuación, presentamos un nuevo prefiltro para la reducción automatizada de datos de los datos de GC / MS antes de la selección de funciones. Esta herramienta, denominada filtro de iones únicos (UIF), es un módulo que se puede agregar después de la alineación cromatográfica y antes de cualquier algoritmo de selección de características posterior. La UIF reduce objetivamente el número de variables irrelevantes o redundantes en los datos sin procesar de GC / MS, al tiempo que conserva la información analítica potencialmente relevante. En el metro/z dimensión, los datos se reducen de un espectro completo a un puñado de iones únicos para cada pico cromatográfico. En la dimensión de tiempo, los datos se reducen a solo un puñado de escaneos alrededor de cada vértice de los picos. Se aplicó UIF a un conjunto de datos de GC / MS para una variedad de muestras de gasolina para ser clasificadas usando análisis discriminante de mínimos cuadrados parciales (PLS-DA) de acuerdo con el índice de octano. También se aplicó a una serie de cromatogramas de análisis de escombros de incendios de trabajos de caso para ser clasificados en función de si se detectaron o no firmas de gasolina. Al reducir la población general de variables candidatas sujetas a la selección de variables posterior, la UIF redujo el tiempo total de selección de características para el que se logró una clasificación perfecta de todos los datos de validación de 373 a 9 min (reducción del 98% en el tiempo de cálculo). Además, la reducción significativa en las variables incluidas resultó en una reducción concomitante del ruido, mejorando la calidad general del modelo. Un mínimo de dos um/z y la ventana de exploración de tres sobre el vértice del pico podría proporcionar suficiente información sobre cada pico para el modelado PLS-DA exitoso de los datos, ya que se logró una precisión de predicción del modelo del 100%. También se muestra que la aplicación de UIF no altera la información química subyacente en los datos.


Agradecimientos

Un agradecimiento especial a Leander Dony, quien depuró, actualizó y probó el estudio de caso para trabajar con los métodos más recientes. Además, nos gustaría agradecer a las muchas personas que revisaron el cuaderno de estudio de caso y el manuscrito y lo mejoraron con sus comentarios y experiencia. Por ello, agradecemos el aporte de Maren Buttner, David Fischer, Alex Wolf, Lukas Simon, Luis Ospina-Forero, Sophie Tritschler, Niklas Koehler, Goekcen Eraslan, Benjamin Schubert, Meromit Singer, Dana Pe'er y Rahul Satija. Un agradecimiento especial por esto también a los revisores anónimos del manuscrito y al editor, Thomas Lemberger, por sus exhaustivos, constructivos y extensos comentarios. El cuaderno de estudio de caso fue probado y mejorado por los primeros usuarios Marius Lange, Hananeh Aliee, Subarna Palit y Lisa Thiergart. Volker Bergen y Alex Wolf también contribuyeron al flujo de trabajo haciendo adaptaciones de escaneo. La elección del conjunto de datos para mostrar de manera óptima todos los aspectos del flujo de trabajo de análisis fue facilitada por la amable contribución de Adam Haber y Aviv Regev. Este trabajo fue apoyado por la subvención BMBF # 01IS18036A y la subvención # 01IS18053A, de la German Research Foundation (DFG) dentro del Collaborative Research Center 1243, Subproyecto A17, por la Asociación Helmholtz (Incubator grant sparse2big, grant # ZT-I-0007) y por el DAF de la Iniciativa Chan Zuckerberg (fondo asesorado de Silicon Valley Community Foundation, 182835).


1. Introducción

En los experimentos de microarrays, los valores perdidos aleatoriamente pueden ocurrir debido a raspaduras en el chip, errores de localización, polvo o errores de hibridación. Otros valores perdidos no aleatorios pueden ser de naturaleza biológica, por ejemplo, sondas con valores de baja intensidad o valores de intensidad que pueden exceder un umbral legible. Estos valores faltantes crearán matrices de expresión génica incompletas donde las filas se refieren a los genes y las columnas a las muestras. Estas matrices de expresión incompletas dificultarán que los investigadores realicen análisis posteriores, como la inferencia de expresión diferencial, la agrupación o los métodos de reducción de dimensiones (por ejemplo, análisis de componentes principales) o el escalado multidimensional. Por lo tanto, es fundamental comprender la naturaleza de los valores perdidos y elegir un método preciso para imputar los valores perdidos.

Se han propuesto varios métodos para imputar datos faltantes en experimentos de microarrays. En uno de los primeros artículos relacionados con microarrays, Troyanskaya et al. [1] examinar varios métodos de imputación de datos faltantes y, en última instancia, sugerir una k-Acercamiento de los vecinos más cercanos. Los investigadores también exploraron la aplicación de esquemas previamente desarrollados para microarrays, como los mínimos cuadrados parciales iterativos no lineales (NIPALS) como lo discutió Wold [2]. Oba et al. [3]. Otros enfoques como el de B & # x000f8 et al. [4] sugieren el uso de métodos de mínimos cuadrados para estimar los valores faltantes en los datos de microarrays, mientras que Kim et al. [5] sugieren utilizar una imputación local por mínimos cuadrados. Ouyang et al. [6].

Si bien muchos de estos enfoques se pueden aplicar generalmente a diferentes tipos de matrices de expresión génica, nos centraremos en aplicar estos métodos a las matrices de expresión génica de Affymetrix, una de las matrices más populares en la investigación científica. Naturalmente, al proponer un nuevo esquema de imputación para matrices de expresión, es necesario comparar el nuevo método con los métodos existentes. Varios artículos excelentes han comparado los procedimientos de datos faltantes en plataformas de datos de alto rendimiento, como la electroforesis en gel bidimensional como en los trabajos de Miecznikowski et al. [7] o matrices de expresión génica [8 & # x0201310]. Antes de estudiar los esquemas de imputación de datos faltantes en matrices de expresión génica de Affymetrix, es razonable eliminar primero los valores faltantes existentes. De esta manera, nos aseguramos de que los valores perdidos posteriores tengan valores verdaderos conocidos. Se utiliza un algoritmo de llamada de detección para filtrar y eliminar los valores de expresión perdidos en función de las llamadas ausentes / presentes [11]. Posteriormente, se emplea un esquema de preprocesamiento. Existen numerosas tareas para realizar en el preprocesamiento de matrices Affymetrix, incluido el ajuste de fondo, la normalización y el resumen. Gentleman et al. [12]. Para nuestro análisis, la llamada de detección emplea MAS 5.0 [13] para obtener valores de expresión, por lo tanto, también usamos el conjunto de funciones MAS 5.0 como nuestro método de preprocesamiento.

Para nuestro análisis, nos centramos en los conjuntos de datos de control de calidad de microarrays (MAQC) (Nº de acceso <"type": "entrez-geo", "attrs": <"text": "GSE5350", "term_id": "5350" >> GSE5350), donde los conjuntos de datos se han diseñado específicamente para abordar los puntos fuertes y débiles de varios métodos de análisis de microarrays. Los conjuntos de datos MAQC fueron diseñados por la Administración de Drogas y Alimentos de los EE. UU. Para proporcionar herramientas de control de calidad (QC) a la comunidad de microarrays para evitar fallas en los procedimientos. El proyecto tenía como objetivo desarrollar pautas para el análisis de datos de microarrays proporcionando al público grandes conjuntos de datos de referencia junto con muestras de ácido ribonucleico (ARN) de referencia fácilmente accesibles. Otro propósito de este proyecto fue establecer métricas y umbrales de control de calidad para evaluar objetivamente el rendimiento que pueden lograr varias plataformas de microarrays. Estos conjuntos de datos fueron diseñados para evaluar las ventajas y desventajas de varios métodos de análisis de datos.

Los resultados iniciales del proyecto MAQC se publicaron en el trabajo de Shi [14] y más tarde en el trabajo de Chen et al. [15] y el trabajo de Shi et al. [16]. Específicamente, el diseño experimental MAQC para la expresión del gen Affymetrix HG-U133 Plus 2.0 GeneChip incluye 6 sitios de prueba diferentes, 4 grupos por sitio y 5 réplicas por sitio, para un total de 120 matrices (ver Sección 2). Este rico conjunto de datos proporciona un entorno ideal para evaluar los métodos de imputación en matrices de expresión de Affymetrix. Si bien este conjunto de datos se ha extraído para determinar la reproducibilidad de las mediciones entre plataformas, hasta donde sabemos, ninguno ha estudiado los métodos de imputación en este conjunto de datos.

El conjunto de datos MAQC hibrida dos tipos de muestras de ARN & # x02014Universal Human Reference RNA (UHRR) de Stratagene y un Human Brain Reference RNA (HBRR) de Ambion. Estas 2 muestras de referencia y diversas mezclas de estas muestras constituyen los 4 grupos diferentes incluidos en el conjunto de datos MAQC. Mediante el uso de varias mezclas de UHRR y HBRR, este conjunto de datos está diseñado para estudiar las variaciones técnicas presentes en esta tecnología. Por variaciones técnicas, nos referimos a la variabilidad entre las preparaciones y el etiquetado de la muestra, la variabilidad entre la hibridación de la misma muestra a diferentes matrices, la variabilidad del sitio de prueba y la variabilidad entre la señal en las características replicadas de la misma matriz. Mientras tanto, la variabilidad biológica se refiere a la variabilidad entre los individuos de la población y es independiente del proceso de microarrays en sí. Al estar diseñado el conjunto de datos MAQC para estudiar la variación técnica, podemos examinar la precisión de los procedimientos de imputación sin la característica de confusión de la variabilidad biológica. Además de los conjuntos de datos MAQC, se han utilizado conjuntos de datos técnicos similares para evaluar diferentes métodos de análisis específicos de microarrays de Affymetrix, por ejemplo, métodos para identificar genes expresados ​​diferencialmente [17 & # x0201319].

En resumen, nuestro análisis examina los esquemas de imputación de vanguardia en un conjunto de datos técnicos de Affymetrix con una variación biológica mínima. La sección 2 analiza el conjunto de datos MAQC y los esquemas de imputación propuestos. Mientras tanto, la Sección 3 describe los resultados de la aplicación de los métodos de imputación para abordar la falta de datos en los conjuntos de datos MAQC. Finalmente, concluimos nuestro artículo con una discusión y conclusión en las Secciones 4 y 5.


Referencias

    1. Simoni Y, Chng MHY, Li S, et al.: Citometría de masas: una poderosa herramienta para diseccionar el panorama inmunológico. Curr Opin Immunol. 2018 51: 187–196. PubMed Abstract | Texto completo del editor 2. Spitzer MH, Nolan GP: Citometría de masas: células individuales, muchas funciones. Celda. 2016 165(4): 780–791. Resumen de PubMed | Texto completo del editor | Free Full Text 3. Behbehani GK: Aplicaciones de la citometría de masas en medicina clínica: la promesa y los peligros de CyTOF clínico. Clin Lab Med. 2017 37(4): 945–964. PubMed Abstract | Texto completo del editor 4. Schulz AR, Baumgart S, Schulze J, et al.: Cócteles de anticuerpos estabilizadores para citometría de masas. Citometría A. 2019 95(8): 910–916. Resumen de PubMed | Texto completo del editor 5. Hartmann FJ, Babdor J, Gherardini PF, et al.: Monitoreo inmunológico integral de ensayos clínicos para avanzar en la inmunoterapia humana. Rep. Celular 2019 28(3): 819–831.e4. Resumen de PubMed | Texto completo del editor | Texto completo libre 6. Palit S, Heuser C, de Almeida GP, et a: Respondiendo a los desafíos del análisis de datos unicelulares de alta dimensión en inmunología. Front Immunol. 2019 10: 1515. Resumen de PubMed | Texto completo del editor | Texto completo libre 7. Olsen LR, Leipold MD, Pedersen CB, et al.: La anatomía de los datos de citometría de masa unicelular. Citometría A. 2019 95(2): 156-172. PubMed Abstract | Texto completo del editor 8. Finck R, Simonds EF, Jager A, et al.: Normalización de datos de citometría de masas con patrones de perlas. Citometría A. 2013 83(5): 483–494. PubMed Abstract | Texto completo del editor | Texto completo libre 9. Chevrier S, Crowell HL, Zanotelli VRT, et al.: Compensación de desbordamiento de señal en suspensión y citometría de masas por imágenes. Cell Syst. 2018 6(5): 612–620.e5. Resumen de PubMed | Texto completo del editor | Texto completo gratuito 10. Zunder ER, Finck R, Behbehani GK, et al.: Código de barras de celda de etiqueta masiva basado en paladio con un esquema de filtrado doble y algoritmo de desconvolución de celda única. Nat Protocol. 2015 10(2): 316–333. PubMed Abstract | Texto completo del editor | Texto completo gratuito 11. Schuyler RP, Jackson C, Garcia-Perez JE, et al.: Minimización de efectos por lotes en datos de citometría de masas. Front Immunol. 2019 10: 2367. Resumen de PubMed | Texto completo del editor | Texto completo libre 12. Van Gassen S, Gaudilliere B, Angst MS, et al.: CytoNorm: un algoritmo de normalización para datos de citometría. Citometría A. 2020 97(3): 268–278. PubMed Abstract | Texto completo del editor | Free Full Text 13. Kotecha N, Krutzik PO, Irish JM: Análisis y publicación de experimentos de citometría de flujo basados ​​en la web. Protocolos actuales Cytom. 2010 Capítulo 10: Unidad10.17. PubMed Abstract | Texto completo del editor | Texto completo libre 14. Nowicka M, Krieg C, Crowell HL, et al.: Flujo de trabajo CyTOF: descubrimiento diferencial en conjuntos de datos de citometría de alta dimensión y alto rendimiento [revisión por pares de la versión 3: 2 aprobadas]. F1000Res. 2019 6: 748. Resumen de PubMed | Texto completo del editor | Texto completo libre 15. Irmisch A, Bonilla X, Chevrier S, et al.: The Tumor Profiler Study: perfil de tumor integrado, multifuncional y funcional para el apoyo a la toma de decisiones clínicas. medRxiv. 2020. Texto completo del editor 16. Chevrier S, Zurbuchen Y, Cervia C, et al.: Una firma inmune innata distintiva marca la progresión de COVID-19 leve a grave. bioRxiv. 2020. Texto completo del editor 17. Chevrier S, Levine JH, Zanotelli VRT, et al.: Atlas inmunológico del carcinoma de células renales de células claras. Celda. 2017 169(4): 736–749.e18. PubMed Abstract | Texto completo del editor | Texto completo libre 18. Crowell H, Chevrier S, Jacobs A, et al.: Una tubería de preprocesamiento fácil de usar y reproducible basada en r para datos citof. 2020. Fuente de referencia 19. Lun A, Risso D, Korthauer K: SingleCellExperiment: clases S4 para datos de una sola celda. Versión del paquete R. 2018 1. Texto completo del editor 20. Finak G, Frelinger J, Jiang W, et al.: OpenCyto: una infraestructura de código abierto para análisis de datos de citometría de flujo de extremo a extremo escalable, robusto, reproducible y automatizado. PLoS Comput Biol. 2014 10(8): e1003806. PubMed Abstract | Publisher Full Text | Free Full Text 21. Finak G, Jiang M: FlowWorkspace: Infrastructure for representing and interacting with gated and ungated cytometry data sets. R package version. 2018 3. Publisher Full Text 22. Wickham H: ggplot2: Elegant Graphics for Data Analysis. Springer, 2016. Reference Source 23. Van P, Jiang W, Gottardo R, et al.: ggCyto: next generation open-source visualization software for cytometry. Bioinformática. 2018 34(22): 3951–3953. PubMed Abstract | Publisher Full Text | Free Full Text 24. Hahne F, LeMeur N, Brinkman RR, et al.: flowCore: a Bioconductor package for high throughput flow cytometry. BMC Bioinformática. 2009 10(1): 106. PubMed Abstract | Publisher Full Text | Free Full Text 25. Wickham H, Francois R, Henry L, et al.: dplyr: A grammar of data manipulation. R package. 2015. 26. Bodenmiller B, Zunder ER, Finck R, et al.: Multiplexed mass cytometry profiling of cellular states perturbed by small-molecule regulators. Nat Biotechnol. 2012 30(9): 858–867. PubMed Abstract | Publisher Full Text | Free Full Text 27. McCarthy DJ, Campbell KR, Lun ATL, et al.: Scater: pre-processing, quality control, normalization and visualization of single-cell RNA-seq data in R. Bioinformática. 2017 33(8): 1179–1186. PubMed Abstract | Publisher Full Text | Free Full Text 28. Weber LM, Nowicka M, Soneson C, et al.: diffcyt: Differential discovery in high-dimensional cytometry via high-resolution clustering. Commun Biol. 2019 2: 183. PubMed Abstract | Publisher Full Text | Free Full Text 29. Fletez-Brant K, Špidlen J, Brinkman RR, et al.: flowClean: Automated identification and removal of fluorescence anomalies in flow cytometry data. Cytometry. 2016 89(5): 461–471. PubMed Abstract | Publisher Full Text | Free Full Text 30. Trussart M, Teh CE, Tan T, et al.: CytofRUV: Removing unwanted variation to integrate multiple CyTOF datasets. bioRxiv. 2020. Publisher Full Text 31. Van Gassen S, Callebaut B, Van Helden MJ, et al.: FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data. Cytometry A. 2015 87(7): 636–645. PubMed Abstract | Publisher Full Text 32. Finney DJ: Probit analysis. J Pharm Sci. 1971 60(9): 1432. 33. Ritz C, Baty F, Streibig JC, et al.: Dose-Response Analysis Using R. PLoS One. 2015 10(12): e0146021. PubMed Abstract | Publisher Full Text | Free Full Text 34. Lawson CL, Hanson RJ: Solving least squares problems prentice-hall. Prentice Hall, Englewood Cliffs, NJ. 1974. Reference Source 35. Lawson CL, Hanson RJ: Solving Least Squares Problems. SIAM, Philadelphia, PA. 1995. Reference Source 36. R Core Team: R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2019. Reference Source 37. Huber W, Carey VJ, Gentleman R, et al.: Orchestrating high-throughput genomic analysis with Bioconductor. Métodos Nat. 2015 12(2): 115–121. PubMed Abstract | Publisher Full Text | Free Full Text

Looking for the Open Peer Review Reports?

They can now be found at the top of the panel on the right, linked from the box entitled Open Peer Review. Choose the reviewer report you wish to read and click the 'read' link. You can also read all the peer review reports by downloading the PDF.


Ver el vídeo: Basic Principles of Array CGH (Mayo 2022).