芹芹芹芹说历史
当前位置:首页 - 百科 >

转录组测序数据分析公益视频学习笔记分享

2019-10-09来源:江浙网

耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!

在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 JMZENG1314@163.COM),就有惊喜!

专题历史目录:
3个学生的linux视频学习笔记
生信人应该这样学R语言系列视频学习心得笔记分享
一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)
公共数据库挖掘视频学习心得体会
生信小技巧系列第一季完结版视频教程学习笔记分享
接下来介绍转录组实战;

【生信技能树】转录组测序数据分析




写在前面


1. 生物信息学背景知识

2. 转录组破冰之旅

3. 转录组文献解读

4. 软件安装

5. sratoolkit下载数据

6. Qc-1

7. alignment

8. 表达矩阵探索

9. DEG

10. 当数据传输偶遇断电正确自救姿势



“ 生物信息学背景知识   

  • 常识训练

    • Linux, 数据库,ID, 参考基因组,测序原理

    • Linux

      • 系统认知

        • 开源,多任务,多用户,多线程,稳定性和高效性、安全、极简、酷炫

        • 马哥linux运维

        • 登陆服务器,比较windows和linux

        • linux书推荐

      • 去可视化

        • 归纳命令+参数+文件的模式

        • 基础知识:cd-. Cd.., history, !5, /home/,/tmp/, >.&, jobs, nohup

        • 文件目录操作df, du, top, free, ps, ifconfig, netstat, ssh, scp

        • 用户权限:chown, chgro, groups, ls

      • 文本处理

        • 主要是实战awk, grep, sed, paste, cat, diff, wc, vi命令

        • 处理fastq, fasta, sam, bam, vcd, gff, bed, MAF等格式

        • 下载meta.txt

      • 软件安装

        • 生物信息学常见1000个软件安装的代码

        • 软件安装分为三类

          • 二进制可执行程序,直接下载软件包解压缩

          • 所有语言的代码,perl, R, python,java, Matlab, ruby, c

          • 系统或者语言自带的各种软件中心安装器,apt-get, yum, bioconda, cran, brew, pip, conda

          • conda好用

      • 脚本编程

      • 环境变量

      • 作业

      • 编程基础

        • linux持续学习,看马哥视频➕练习题

        • R语言持续学习,视频➕练习题

        • python或者perl选学一个脚本语言——生信编程实战


    • 生信基础知识掌握

      • 生物芯片和测序技术分类、原理、历史,自行查找归纳

        • 主要测序平台

        • 主要芯片平台

      • 3大国际数据中心了解,NCBI, ENSEMBL, UCSC

      • 数据格式的整理和书籍,fastq, fasta, sam, bam, vcf, gtf, bed, MAF

      • 参考基因组的熟悉及其基因组注释新文件下载和摸索

      • 从基因开始理解生物信息学

      • 组学技术应用等第一篇文章及最新综述文章收集整理

      • 各个组学数据分析等结题报告阅读及整理

      • 数据库收集整理

        • eg检索UCSC database filetype: pdf


    • NGS多组学

      • 有参NGS组学数据分析的异同

      • 最简单的WEG测序数据分析

      • 最简单的RNA-seq测序数据分析

      • 最简单的CHIP-seq数据分析

  • 转录组背景知识获得

    • 收集整理2010-2018年RNA-seq技术综述

    • 阅读超过5个公司的RNA-seq数据分析结题报告

    • 阅读超过15个应用RNA-seq数据的文章(IF>10, 5-10,<5)

    • 了解含有RNA-seq数据大计划

    • 提取RNA-seq数据分析主干,绘制流程图,并安装对应软件

    • 提取RNA-seq数据分析侧枝,了解更多扩展分析,并安装对应软件

  • 了解RNA-seq技术环节

    • 实验设计细节

    • RNA提取及质量控制

    • cDNA合成

    • 文库构建

  • 了解RNA-seq应用

    • 蛋白质编码基因结构

    • 新型蛋白质编码基因

    • 基因表达的量化和比较

    • 表达数量性状基因座

    • 单细胞RNA-seq

    • 融合基因

    • 基因变异

    • 长的非编码RNA

    • 非编码小RNA

    • 扩增产物测序

  • 了解RNA-seq项目设计的一般原则

    • 推荐100-200M的PE75以上的reads, 重复大于6

  • 根据测序测量及各个分组是否有重复来实战

    • SE50无重复

    • PE150有重复

  • 了解一些实战导读

    • 一个RNA-seq实战,超级简单,2小时搞定

    • 一个植物转录组项目的实战

  • 数据处理的流程(安装之前先搜索一下名称是否对)

    • 数据资源下载,参考基因组及参考转录组

      • gtf, genome, fa

    • 质控

      • Fastqc, multiqc, trimmodia, cutadape, trim_galore

    • 比对

      • Star, hisat2, tophat2, bowtie2, subhead, bra

    • 计数

      • featurecounts, htseq-counts

    • 归一化

      • DEseq2, edgeR, limma(voom)

    • 差异分析

  • 可视化

    • IGV等浏览器

    • ggplot2+ggplur包

  • 意义不大的课程

    • 开启WSL

    • 基本设置

    • 安装bioconda

    • 安装常用生物软件

    • RNA-seq分析案例

    • 下载数据

    • hisa比对stringTie重构转录本

    • ballgown差异表达分析及可视化




“ 转录组破冰之旅   

  • 了解基因测序

  • 了解基因测序技术

  • 了解基因测序应用(推荐做应用)

  • 高通量测序方案的选择

    • 转录调控研究

      • 转录组测序

      • 表达谱测序

      • Small RNA测序

      • circRNA测序

      • LncRNA测序

      • 全长转录组测序

      • 甲基化测序

    • 微生物组学研究

      • 环境微生物多样性检测

      • 宏基因组de novo测序

      • 宏转录组测序

    • 基因组学研究

      • 全基因组de novo测序

      • 简化基因组测序

      • 基因组重测序

      • 外显子组测序

      • 扩增子测序

  • RNA解读基因组的关键

    • 数据深度挖掘(信息分析自动化)

  • 完善的项目流程

    • 售前咨询

      • 实验设计

      • 科研预约

    • 样品提取

      • RNA提取

      • RNA检测

    • 文库构建

      • illumina试剂盒

    • 上机测序

      • 平台选择

      • 数据量选择

    • 信息分析

      • 数据深度挖掘

      • 高级信息分析自动化

    • 技术答疑

      • 结题报告讲解

      • 文章润色

  • 测序平台

  • 转录组分析说测序深度重要还是生物学重复重要

    • 生物学重复对实验结果影响大的多

  • 转录组分析多少生物学重复合适?重复少会出现什么直接后果?

    • 经费充足>=30

    • 经费紧张>=6

    • 自己说了不算>=老板指示

    • 重复越少,假阴性率越高,筛选到的差异表达基因越少,但筛选到的基因还是可信

  • 转录组分析重复不足(n<6)时,会有哪些后果

    • 如果筛选的差异基因很少,当实验设计多于两个condition时,会产生一定问题

    • 用更严格的分析方法,如DESeq2, edgeR, sleuth等

    • 差异倍数较大的基因(FC>=4)被遗漏的风险较小

  • 一定看的综述  2016-a survey of best practices for RNA-seq data analysis

  • 看软件说明书,看imput, output啥

  • 统计学知识很重要



“ 转录组文献解读   

  • 看五本编程书,每本书看5遍以上

  • 补充背景知识,看综述

    • 综述

      • A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis

      • Methods to study splicing from high-throughput RNA sequencing data

      • A survey of best practices for RNA-seq data analysis

      • hppRNA-a snakelike-based handy parameter-free pipeline for RNA-seq analysis of numerous samples

      • Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis

  • 转录组搜 hg38 ftp ucsc/ncbi/ensembl

    • ftp服务器

    • 复制下载链接

    • 用linux下载

    • 有参转录组:下载参考基因组文件



“ 软件安装   

大部分的数据分析最重要的是学习各种各样的软件,一般生物信息学软件发布的时候会提供多种形式下载sratoolkit (有源代码下载源代码)

又或者NCBI的blast

  • 二进制软件(预编译版本)

    • 检验大家根据自己电脑操作系统下载预编译版本软件,直接解压可以使用了

    • 用linux系统,用代码安装即可使用

  • 源码软件

    • 一般开源软件发布的时候会把源代码放出来,在linux系统下以源代码方式安装软件,一般自己的linud系统要有gcc编译器,还需要有一些库文件,这也是大多数新手被坑的地方。

    • 源代码安装三部曲:

      • 配置 ./configure

      • 编译 make

      • 安装 sudo make install

    • 这时候需要对计算机操作系统有一定了解,第一个步骤可以设置——prefiex=安装路径,参数指定软件编译后的可执行文件放在具体哪个路径下,默认的路径需要有root权限。

      而第二步经常会遇到库文件缺失,比如安装bwa软件的zlib,安装samtools的等等

    • 总之遇到的坑越多,学到的知识越多。

    • 直接用bioconda来管理生物信息学软件,这些坑就可以避免了。

  • 系统自带软件中心(#soft-repositories)

    • 操作系统只是一个生态环境,没有上面的软件,用处有限。做生物信息学分析也是如此。

    • 不同的系统,安装方式不一样,windows基本没有自带软件中心,mac有appstore, 生物信息学的很少,linux根据发行版不一样,安装命令不一样,ubuntu用apt-get, centos用yum, 其余的自己搜索了解一下。

    • 一般新的unbuntu系统一般会出现缺失安装bwa/samtools等软件的库,而且安装一下R语言包会面临库文件缺失的情况。

  • conda软件管理(# soft-conda)

    • 对于生信初学者而言,最困难的在于安装各种生信软件。目前最强的非root软件管理器-conda

    • 什么是conda

      • 先了解什么是anaconda

        • 是python的科学发行版,将各种科学计算工具整合到一个安装包之中,从而使得python变强大,像linux本身只是内核,通过整合不同软件之后才变得实用

        • anaconda为了避免python原生pip安装软件会出现的问题,比如windows下安装科学计算必备的numpy和pandas时非常麻烦,就自己编译好了一些安装包,仅仅使用conda install就能下载编译好的二进制包。conda最开始是anaconda提供的python包安装管理工具

    • 为什么用conda

标签:
网站简介 联系我们 网站申明 网站地图

版权所有:www.hammondcheezefilms.com ©2017 芹芹芹芹说历史

芹芹芹芹说历史提供的所有内容均是网络转载或网友提供,本站仅提供内容展示服务,不承认任何法律责任。