国产一区中文字幕_欧美日韩视频在线观看一区二区三区 _中文字幕日韩av_欧美日韩国产成人在线91

GWAS全基因組關聯(lián)分析第二期:數(shù)據(jù)質控_abio生物試劑品牌網

abiopp11個月前未命名188

上一期我們了分享了GWAS分析需要的數(shù)據(jù)格式,以及不同格式之間的轉換。現(xiàn)在我們已經準備好了表型數(shù)據(jù)和基因數(shù)據(jù),是不是就想馬上進行關聯(lián)分析了?心急吃不了熱豆腐,為了提高關聯(lián)分析結果的準確性,需要對數(shù)據(jù)進行質控,去掉不合格的樣本和變異數(shù)據(jù)。

1 SNP及個體缺失過濾 

人工采集的數(shù)據(jù),可能存在位點基因型和個體基因數(shù)據(jù)缺失(表型缺失的直接去掉),這些缺失數(shù)據(jù)影響關聯(lián)分析的準確性,需要將缺失率控制在一定標準以下。建議首先以寬松的閾值(0.2;> 20%)過濾SNP和個體,從而過濾掉缺失程度很高的SNP和個體;再使用更嚴格的閾值過濾((0.02;> 2%)。

# SNP缺失過濾
$plink --noweb --bfile $project.raw.mark --geno 0.2 --allow-no-sex --make-bed --out ${project}.filter.mds1

# 個體缺失過濾
$plink --noweb --bfile ${project}.filter.mds1 --mind 0.2 --allow-no-sex --make-bed --out ${project}.filter.mds2

注意:以上步驟更換更嚴格的參數(shù)再過濾一遍。


2 性別和親緣關系檢測(可選) 

性別檢測基于X染色體近交系(純合子性)估計,一般女性受試者的F值 < 0.2,男性受試者的F值 > 0.8,不滿足這些要求的被標記為“PROBLEM”。

# 性別檢測
$plink --noweb --bfile ${project}.raw.mark --check-sex

# 輸出結果保存在plink.sexcheck文件中,提取性別異常個體
$grep "PROBLEM" plink.sexcheck | awk '{print $1,$2}' >sex_removelist.txt

# 刪除性別異常個體(不建議刪除,除非明確該樣本數(shù)據(jù)有污染)
$plink --noweb --bfile ${project}.raw.mark --remove sex_removelist.txt --make-bed --out ${project}.raw.mark2

親緣關系檢測基于遺傳信息,判斷樣本親緣關系的指標分為狀態(tài)同源(identical by state,IBS)和血緣同源(Identity By Descent,IBD),通常IBD無法直接觀察,但IBS可以通過兩個個體基因型算出(如下圖),再根據(jù)IBS以及等位基因頻率的分布推斷IBD。

 
# 親緣關系檢測
$plink --noweb --bfile ${project}.raw.mark --genome

# 輸出文件保存在plink.genome文件中,提取親緣關系異常的樣本
sed 's/^\s\+//' plink.genome | sed 's/\s\+/\t/g' | awk -v dst=0.85 'NR>2 {if($12 > dst) {print $1,$2; print $3,$4}}' | sort | uniq >genome_removelist.txt

# 刪除親緣關系異常個體(不建議刪除)
$plink --noweb --bfile ${project}.raw.mark --remove genome_removelist.txt --make-bed --out ${project}.raw.mark2


3 哈溫平衡過濾 

哈迪-溫伯格(Hardy-Weinberg)法則是群體遺傳中最重要的原理,提出在一個不發(fā)生突變、遷移和選擇的無限大的隨機交配的群體中(理想狀態(tài)下),基因頻率和基因型頻率將逐代保持不變。一對等位基因的3種基因型分布比例符合以下規(guī)律:
(p + q)^2 = 1 等價于 p^2 + 2pq + q^2 = 1
注:p和q分別表示兩個等位基因頻率,且p + q = 1。
$plink --noweb --bfile ${project}.raw.mark --hwe 1e-10 --hwe-all --make-bed --out ${project}.filter.haw


4 最小等位基因頻率過濾 

最小等位基因頻率(MAF)通常是指在給定人群中的不常見的等位基因發(fā)生頻率。

MAF如果非常小,比如低于0.02,那么意味著大部分位點都是相同的基因型,這些位點貢獻的信息非常少,增加假陽性;更有甚者MAF為0,即所有位點只有一種基因型,這些位點沒有貢獻信息,放在計算中增加計算量,沒有意義,所以要根據(jù)MAF進行過濾。

# 最小等位基因頻率過濾(這里MAF閾值設為0.05)
$plink --noweb --bfile ${project}.raw.mark --maf 0.05 --allow-no-sex --make-bed --out ${project}.filter.maf


5 群體分層 

群體分層(Population stratification):是最常見的差異來源,指的是case/control組的樣本來自于不同的祖先群體,其分型結果自然是有差異的。

不同群體SNP頻率不一樣,導致后面做關聯(lián)分析的時候可能出現(xiàn)假陽性位點(不一定是顯著信號位點與該表型有關,可能是與群體SNP頻率差異有關),因此我們需要在關聯(lián)分析前對群體分層校正。

# 主成分分析
$plink --noweb --bfile ${project}.raw.mark --pca 10 --out pca

# 提取離群樣本
根據(jù)主成分分析結果,繪圖展示,確定離群樣本,寫入pca_removelist.txt文件

# 刪除離群個體(可選)
$plink --noweb --bfile ${project}.raw.mark --remove pca_removelist.txt --make-bed --out ${project}.filter.pc


6 雜合性過濾 

雜合性是指某一個位點上含有一對及其以上的不同的等位基因。包括同系合性和同種合性。群體遺傳多態(tài)性的均勻度的度量常采用雜合度作為參數(shù)。雜合性是在同源染色體上的一個或多個位點上有不同等位基因存在的狀態(tài),是種群的基本屬性之一。

# 連鎖過濾(LD),得到不連鎖的SNP
$plink --noweb --bfile ${project}.raw.mark --indep-pAIrwise 50 5 0.2 --out indepSNP

# 提取不連鎖的SNP進行雜合性分析
$plink --noweb --bfile ${project}.raw.mark --extract indepSNP.prune.in --het --out hetSNP

# 提取雜合度較高的個體
sed 's/^\s\+//' hetSNP.het | sed 's/\s\+/\t/g' | awk -v f=0.35 'NR>1 {if(($5-$3)/$5 > f) {print $1,$2}}' >hetSNP_removelist.txt

# 刪除雜合度高的個體(可選)
$plink --noweb --bfile ${project}.raw.mark --remove hetSNP_removelist.txt --make-bed --out ${project}.filter.het

以上就是本期分享的內容,下一期我們將講解GWAS關聯(lián)分析。

相關文章

技術突破:光片顯微鏡高分辨率成像開創(chuàng)肝硬化組織三維可視化_abio生物試劑品牌網

技術突破:光片顯微鏡高分辨率成像開創(chuàng)肝硬化組織三維可視化_abio生物試劑品牌網

本研究開發(fā)了一種革命性的肝臟纖維化三維成像技術,通過結合組織透明化(CLARITY)與自研光片顯微鏡(LSM),首次實現(xiàn)了對代謝功能障礙相關脂肪性肝病(MASLD)晚期纖維化樣本的高分辨率三維成像。團...

禽支原體單克隆抗體的病原特性、抗體研發(fā)、作用機制及應用場景_abio生物試劑品牌網

禽支原體單克隆抗體的病原特性、抗體研發(fā)、作用機制及應用場景_abio生物試劑品牌網

抗禽支原體單克隆抗體是針對禽支原體(如雞毒支原體 MG、滑液囊支原體 MS 等)表面抗原表位制備的高特異性抗體,在禽支原體病的病原檢測、致病機制研究及防控中具有關鍵作用。以下從病原特性、抗體研發(fā)、作用...

限制性內切酶的命名規(guī)則是什么?_abio生物試劑品牌網

限制性內切酶的命名規(guī)則是什么?_abio生物試劑品牌網

在分子生物學的實驗室里,限制性核酸內切酶(簡稱 “限制酶")是切割 DNA 的 “分子剪刀",而它們的名字并非隨意組合,而是遵循著一套嚴謹?shù)拿瓌t。這套原則由分子生物學家漢密爾頓?史密斯(Hamil...

賽默飛Stellar質譜儀在血漿蛋白質組學中的應用_abio生物試劑品牌網

賽默飛Stellar質譜儀在血漿蛋白質組學中的應用_abio生物試劑品牌網

  生物標志物對于早期診斷疾病、監(jiān)測疾病進展和評估治療反應至關重要。質譜平臺已成為該領域的強大工具,被廣泛應用于發(fā)現(xiàn)和定量樣本中的分析物。然而,將高分辨質譜平臺上的非靶向發(fā)現(xiàn)研究轉化為特定...

豬細小病毒VP3蛋白與豬細小病毒VP3抗原的結構、功能及研究價值_abio生物試劑品牌網

豬細小病毒VP3蛋白與豬細小病毒VP3抗原的結構、功能及研究價值_abio生物試劑品牌網

豬細小病毒(PPV)的VP3 蛋白是病毒復制過程中產生的一種非結構蛋白,與病毒的致病性、宿主細胞凋亡及免疫逃逸等過程密切相關。相較于 VP1 和 VP2(結構蛋白,構成病毒衣殼),VP3 的研究雖不及...

用于高分辨率生物打印的新型(PNIPAAm)基雙凝膠墨水的介紹_abio生物試劑品牌網

用于高分辨率生物打印的新型(PNIPAAm)基雙凝膠墨水的介紹_abio生物試劑品牌網

本文介紹了一種用于高分辨率生物打印的新型聚 N - 異丙基丙烯酰胺(PNIPAAm)基雙凝膠墨水和熱可逆泊洛沙姆支撐浴系統(tǒng)。該墨水通過快速熱凝膠化和自發(fā)共價交聯(lián)反應,結合支撐浴在水合加熱環(huán)境中維持結構...

主站蜘蛛池模板: 欧美亚洲另类制服自拍| 高清一区二区三区视频| 国产精品女人久久久久久| 国产精品一区二区av| 国产精品视频26uuu| 精品毛片久久久久久| 日韩在线视频二区| 91久久大香伊蕉在人线| 美女精品久久久| 欧美日韩视频免费| 久久精品99无色码中文字幕 | 中文字幕日韩精品无码内射| 久久99视频免费| 久久精品99无色码中文字幕| 久久综合给合久久狠狠色| www日韩视频| 色琪琪综合男人的天堂aⅴ视频| 日本一区二区三区四区在线观看 | 精品无人区一区二区三区| 国产成人在线一区| 国产九九精品视频| 国产精品午夜视频| 久久99国产精品99久久| 日韩美女中文字幕| 久久艹中文字幕| 亚洲va国产va天堂va久久| 婷婷亚洲婷婷综合色香五月| 久久久久亚洲av无码专区喷水| 中文精品视频一区二区在线观看| 伊人色综合久久天天五月婷| 国产极品在线视频| 国产精品老女人精品视频| 欧美日韩无遮挡| 在线天堂一区av电影| 亚洲精品欧美日韩专区| 精品一区二区不卡| 亚洲.欧美.日本.国产综合在线| 91精品国产乱码久久久久久蜜臀| 欧美xxxx综合视频| 久久这里精品国产99丫e6| 国产精品欧美激情|