GFF ingestion: Difference between revisions

From CoGepedia
Jump to navigation Jump to search
No edit summary
Line 1: Line 1:
==How does CoGe ingest GFF annotations==
==How does CoGe ingest GFF annotations==
[[File:Screen shot 2012-04-17 at 1.10.42 PM.png|thumb|center|800px|CoGe visualization of [[genomic feature]] from the rice genome]]
[[File:Screen shot 2012-04-17 at 1.10.42 PM.png|thumb|center|800px|CoGe visualization of [[genomic feature]] from the rice genome]]
CoGe's GFF ingestion translate many of the features from the GFF file into something different.  For a basic protein coding gene, CoGe tracks three major genomic features:
*Gene:  the full extent of the transcribed unit including introns
*mRNA:  the spliced transcript
*CDS: the regions that code for protein.
From the GFF3 entry below, the gene and mRNA features are collapsed to a gene in CoGe, the exons are combined to make an mRNA in CoGe, and the CDSs are used as a CDS feature in CoGe.  The UTRs are skipped as being redundant with the exons.


Example GFF entry for a protein coding gene
Example GFF entry for a protein coding gene
<pre>
<pre>
Chr1    MSU_osa1r7      gene    2903    10817   .      +      .      ID=LOC_Os01g01010;Name=LOC_Os01g01010;Note=TBC%20domain%20containing%20protein%2C%20expressed
Chr1    MSU_osa1r7      gene    12648  15915   .      +      .      ID=LOC_Os01g01030;Name=LOC_Os01g01030;Note=monocopper%20oxidase%2C%20putative%2C%20expressed
Chr1    MSU_osa1r7      mRNA    2903    10817   .      +      .      ID=LOC_Os01g01010.1;Name=LOC_Os01g01010.1;Parent=LOC_Os01g01010
Chr1    MSU_osa1r7      mRNA    12648  15915   .      +      .      ID=LOC_Os01g01030.1;Name=LOC_Os01g01030.1;Parent=LOC_Os01g01030
Chr1    MSU_osa1r7      exon    2903    3268    .      +      .      ID=LOC_Os01g01010.1:exon_1;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      exon    12648  13813  .      +      .      ID=LOC_Os01g01030.1:exon_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    3354    3616    .      +      .      ID=LOC_Os01g01010.1:exon_2;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      exon    13906  14271  .      +      .      ID=LOC_Os01g01030.1:exon_2;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    4357    4455    .      +      .      ID=LOC_Os01g01010.1:exon_3;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      exon    14359   14437   .      +      .      ID=LOC_Os01g01030.1:exon_3;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    5457    5560    .      +      .      ID=LOC_Os01g01010.1:exon_4;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      exon    14969   15171   .      +      .      ID=LOC_Os01g01030.1:exon_4;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    7136    7944    .      +      .      ID=LOC_Os01g01010.1:exon_5;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      exon    15266   15915   .      +      .      ID=LOC_Os01g01030.1:exon_5;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    8028    8150    .      +      .      ID=LOC_Os01g01010.1:exon_6;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      five_prime_UTR  12648  12773  .      +      .      ID=LOC_Os01g01030.1:utr_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    8232    8320    .      +      .      ID=LOC_Os01g01010.1:exon_7;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    12774  13813  .      +      .      ID=LOC_Os01g01030.1:cds_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    8408    8608    .      +      .      ID=LOC_Os01g01010.1:exon_8;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    13906  14271  .      +      .      ID=LOC_Os01g01030.1:cds_2;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    9210    9617    .      +      .      ID=LOC_Os01g01010.1:exon_9;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    14359  14437  .      +      .      ID=LOC_Os01g01030.1:cds_3;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    10104   10187   .      +      .      ID=LOC_Os01g01010.1:exon_10;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    14969   15171   .      +      .      ID=LOC_Os01g01030.1:cds_4;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    10274   10430   .      +      .      ID=LOC_Os01g01010.1:exon_11;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    15266   15359   .      +      .      ID=LOC_Os01g01030.1:cds_5;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    10504   10817   .      +      .      ID=LOC_Os01g01010.1:exon_12;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      three_prime_UTR 15360   15915   .      +      .      ID=LOC_Os01g01030.1:utr_2;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      five_prime_UTR  2903    3268    .      +      .      ID=LOC_Os01g01010.1:utr_1;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      five_prime_UTR  3354    3448    .      +      .      ID=LOC_Os01g01010.1:utr_2;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    3449    3616    .      +      .      ID=LOC_Os01g01010.1:cds_1;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    4357    4455    .      +      .      ID=LOC_Os01g01010.1:cds_2;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    5457    5560    .      +      .      ID=LOC_Os01g01010.1:cds_3;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    7136    7944    .      +      .      ID=LOC_Os01g01010.1:cds_4;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    8028    8150    .      +      .      ID=LOC_Os01g01010.1:cds_5;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    8232    8320    .      +      .      ID=LOC_Os01g01010.1:cds_6;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    8408    8608    .      +      .      ID=LOC_Os01g01010.1:cds_7;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    9210    9617    .      +      .      ID=LOC_Os01g01010.1:cds_8;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    10104   10187   .      +      .      ID=LOC_Os01g01010.1:cds_9;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      CDS    10274   10297   .      +      .      ID=LOC_Os01g01010.1:cds_10;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      three_prime_UTR 10298   10430   .      +      .      ID=LOC_Os01g01010.1:utr_3;Parent=LOC_Os01g01010.1
Chr1    MSU_osa1r7      three_prime_UTR 10504  10817  .      +      .      ID=LOC_Os01g01010.1:utr_4;Parent=LOC_Os01g01010.1
 
</pre>
</pre>

Revision as of 20:15, 17 April 2012

How does CoGe ingest GFF annotations

CoGe visualization of genomic feature from the rice genome

CoGe's GFF ingestion translate many of the features from the GFF file into something different. For a basic protein coding gene, CoGe tracks three major genomic features:

  • Gene: the full extent of the transcribed unit including introns
  • mRNA: the spliced transcript
  • CDS: the regions that code for protein.

From the GFF3 entry below, the gene and mRNA features are collapsed to a gene in CoGe, the exons are combined to make an mRNA in CoGe, and the CDSs are used as a CDS feature in CoGe. The UTRs are skipped as being redundant with the exons.

Example GFF entry for a protein coding gene

Chr1    MSU_osa1r7      gene    12648   15915   .       +       .       ID=LOC_Os01g01030;Name=LOC_Os01g01030;Note=monocopper%20oxidase%2C%20putative%2C%20expressed
Chr1    MSU_osa1r7      mRNA    12648   15915   .       +       .       ID=LOC_Os01g01030.1;Name=LOC_Os01g01030.1;Parent=LOC_Os01g01030
Chr1    MSU_osa1r7      exon    12648   13813   .       +       .       ID=LOC_Os01g01030.1:exon_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    13906   14271   .       +       .       ID=LOC_Os01g01030.1:exon_2;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    14359   14437   .       +       .       ID=LOC_Os01g01030.1:exon_3;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    14969   15171   .       +       .       ID=LOC_Os01g01030.1:exon_4;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      exon    15266   15915   .       +       .       ID=LOC_Os01g01030.1:exon_5;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      five_prime_UTR  12648   12773   .       +       .       ID=LOC_Os01g01030.1:utr_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      CDS     12774   13813   .       +       .       ID=LOC_Os01g01030.1:cds_1;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      CDS     13906   14271   .       +       .       ID=LOC_Os01g01030.1:cds_2;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      CDS     14359   14437   .       +       .       ID=LOC_Os01g01030.1:cds_3;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      CDS     14969   15171   .       +       .       ID=LOC_Os01g01030.1:cds_4;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      CDS     15266   15359   .       +       .       ID=LOC_Os01g01030.1:cds_5;Parent=LOC_Os01g01030.1
Chr1    MSU_osa1r7      three_prime_UTR 15360   15915   .       +       .       ID=LOC_Os01g01030.1:utr_2;Parent=LOC_Os01g01030.1