Skip to content

ulvivl/hse_hw2_chip

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

60 Commits
 
 
 
 
 
 

Repository files navigation

hse_hw2_chip

Ссылка на колаб
Ссылка на условия


Клеточная линия Гистоновая метка Реплика 1 Реплика 2 Контрольный эксперимент
A549 H3K4me2 ENCFF507YIE ENCFF826KAA ENCFF232NPZ

  1. Отчеты Fastqc

    При анализе Fastqc подрезание прочтений и фильтрация не потребовалось, так как большинство разделов в Summary отмечены, как корректно выполненные.

  • Summary

    ENCFF507YIE ENCFF826KAA ENCFF232NPZ

    Вывод: Из данных таблиечк можем сделать вывод, что большинство анализов проведены корректно.

  • Basic statistics

    ENCFF507YIE ENCFF826KAA ENCFF232NPZ

    Вывод: В данных таблицах представлена базовая информация FASTQ файле. На мой взгляд информативными показателями являются: общее количество чтений, длина чтения и содержание GC.

  • Per tile sequence quality

    ENCFF507YIE ENCFF826KAA ENCFF232NPZ

    Вывод: Данные графики позволяют посмотреть на средние показатели качества по всем данным, чтобы увидеть, не было ли потери качества, связанного только с одной частью. Можно заметить, что результаты во всех трех экспериментах, включая контрольный, оказались практически идеальными. Отличается от других лишь второй график (образец ENCFF826KAA), на котором видно несколько светлых частей, сигнализирующих о том, что в данных позициях качество было на уровне или выше среднего. Однако все значения в пределах нормы, большой потери качества не наблюдается.

  • Per base sequence content

    ENCFF507YIE ENCFF826KAA ENCFF232NPZ

    Вывод: Можем заметить, что уровень Аденина(А), Гуанина(G), Цитозина(C), Тимина(T) остается на одном уровне, причем азотистые основания разбились на две группы тимин, аденин и цитозин, гуанин. Данное наблюдение прослеживается на всех трех графиках и свидетельствует о нормальных (не аномальных) значениях показателей.

  • Per sequence GC content

    ENCFF507YIE ENCFF826KAA ENCFF232NPZ

    Вывод: Исходя из трех скриншотов, видно, что на третьем графике кривые похожи на нормально распредление, где среднее значение соотвествует среднему содержанию GC в секвинируемом огранизме. Для первых двух скриншотов, можно же заметить, что их распредление откличается от нормального, в связи с чем в таблице Summary напротив данного параметра мы наблюдаем восклицательный знак, сигнализирующий о возможных проблемах при данном анализе.


  1. Таблица со статистикой по каждому из 3 образцов
Образец Всего ридов Выровнилось уникально Выровнилось уникально(%) Выровнилось неуникально Выровнилось неуникально(%) Не выровнилось Не выровнилось(%)
ENCFF507YIE 45551674 1278836 2.81% 4569570 10.03% 39703268 87.16%
ENCFF826KAA 46522698 1129018 2.43% 3765869 8.09% 41627811 89.48%
ENCFF232NPZ 26282868 865880 3.29% 3363247 12.80% 22053741 83.91%

Вывод: Процент выравниваний получился низким, так как выравнивание ридов производилось на одну хромосому, которая составляет небольшую часть генома человека.


  1. Диаграммы Венна
  • Для образца ENCFF507YIE

    Количество участков из файла для ENCFF507YIE, которые пересекаются с файлом для ENCFF806AQL Количество участков из файла для ENCFF806AQL, которые пересекаются с файлом для ENCFF507YIE
  • Для образца ENCFF826KAA

    Количество участков из файла для ENCFF826KAA, которые пересекаются с файлом для ENCFF806AQL Количество участков из файла для ENCFF806AQL, которые пересекаются с файлом для ENCFF826KAA

Наблюдение: исходя из диаграмм видно, что количество пересекающихся учатсков относительно небольшое. Скорее всего это произошло из-за того, что изначально у нас было относительно не большое количество пиков, так как выравнивание производилось только на одну хромосому. Для файла ENCFF806AQL, взятого из ENCODE, количество пиков же гораздо больше, в связи с выравниванием на все хромосомы. Можно также заметить, что пересечения на двух графиках в одной таблице не совпадают, в силу того как было опредлено пересечение (количество пиков из одного файла, которые есть во втором файле != количеству пиков из второго файла, которые есть во первом).


  1. Бонусная часть Хитмэпы для bam файлов и соотвествующих им .bigWig файлов

    ngs.plot для ENCFF066HKS.bam ngs.plot для ENCFF346XTR.bam

Наблюдение: Полученные графики для .bam файлов похожи на типичное расположение гистоновой метки относительно генов. Однако кажется что наш график немного смещен влевую сторону, то есть видно что вначале график претерпевает резкий рост, а затем претерпевает более плавный спад, в то время как на графике с типичным расположением рост и спад более плавные и почти одинаковые. Таким образом, теоретическое расположения гистоновой метки относительно генов отличается от полученного результата.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages