-*- outline -*-


* Differences between uta0 (~May 2013) and uta1 (Dec 2013)
A number of anomalies were discovered when comparing versions of UTA.
These are summarized below.  In all cases, we're comparing identical
transcripts (by versioned accessions).


** 8 transcripts (accession & version) have different # of transcript exons in uta0 and uta1
reece@[local]/uta_dev=> select hgnc,ac,u0_t_n_exons,u1_t_n_exons,u0_t_se_i,u1_t_se_i  from u01_mv where u0_t_n_exons != u1_t_n_exons order by 1;
  hgnc   │       ac       │ u0_t_n_exons │ u1_t_n_exons │                   u0_t_se_i                   │                                                                                                                  
─────────┼────────────────┼──────────────┼──────────────┼───────────────────────────────────────────────┼──────────────────────────────────────────────────────────────────────────────────────────────────────────────────
 DPP6    │ NM_001039350.1 │            5 │           26 │ 0,401;401,516;516,615;615,710;710,811         │ 0,401;401,516;516,615;615,710;710,785;785,838;838,920;920,1041;1041,1196;1196,1294;1294,1418;1418,1457;1457,1565;
 DPP6    │ NM_001936.3    │            5 │           26 │ 0,290;290,405;405,504;504,599;599,700         │ 0,290;290,405;405,504;504,599;599,674;674,727;727,809;809,930;930,1085;1085,1183;1183,1307;1307,1346;1346,1454;14
 DPP6    │ NM_130797.2    │            5 │           26 │ 0,372;372,487;487,586;586,681;681,782         │ 0,372;372,487;487,586;586,681;681,756;756,809;809,891;891,1012;1012,1167;1167,1265;1265,1389;1389,1428;1428,1536;
 PCDHA3  │ NM_018906.2    │            4 │            1 │ 0,2394;2394,2453;2453,2542;2542,5260          │ 0,2337
 PCDHA5  │ NM_018908.2    │            4 │            1 │ 0,2352;2352,2411;2411,2500;2500,5218          │ 0,2335
 PCDHGB2 │ NM_018923.2    │            4 │            1 │ 0,2421;2421,2480;2480,2569;2569,4602          │ 0,2421
 PCDHGB6 │ NM_018926.2    │            4 │            2 │ 0,2418;2418,2477;2477,2566;2566,4599          │ 0,2237;2237,2270
 ZNF248  │ NM_001267607.1 │            6 │            7 │ 0,452;452,550;550,592;592,719;719,815;815,907 │ 0,452;452,550;550,592;592,719;719,815;815,907;907,957
(8 rows)


** 0 transcripts (accession & version) have different # of genomic exons in uta0 and uta1
reece@[local]/uta_dev=> select hgnc,ac,u0_gs_n_exons,u1_gs_n_exons,u0_gs_se_i,u1_gs_se_i  from u01_mv where u0_gs_n_exons != u1_gs_n_exons order by 1;
 hgnc │ ac │ u0_gs_n_exons │ u1_gs_n_exons │ u0_gs_se_i │ u1_gs_se_i 
──────┼────┼───────────────┼───────────────┼────────────┼────────────
(0 rows)


** 4 transcripts have transcript exon structure changes (with same number of exons)
reece@[local]/uta_dev=> select hgnc,ac,u0_t_se_i,u1_t_se_i  from u01_mv where u0_t_n_exons = u1_t_n_exons and u0_t_se_i != u1_t_se_i  order by 1;
   hgnc   │       ac       │                                                                                                                                    u0_t_se_i                                                  
──────────┼────────────────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
 CD99L2   │ NM_001242614.1 │ 0,295;295,358;358,429;429,517;517,586;586,670;670,736;736,775;775,895;895,913;913,979;979,3745                                                                                                
 KRTAP4-1 │ NM_033060.2    │ 0,279;279,736                                                                                                                                                                                 
 NRK      │ NM_198465.2    │ 0,360;360,426;426,483;483,555;555,681;681,792;792,883;883,1014;1014,1069;1069,1148;1148,1324;1324,1388;1388,2544;2544,2652;2652,2720;2720,2815;2815,2913;2913,3278;3278,3615;3615,3802;3802,39
 PCDHGB4  │ NM_003736.2    │ 0,2397;2397,2456;2456,2545;2545,4578                                                                                                                                                          
(4 rows)


** 13 transcripts have genome exon structure changes (with same number of exons)
reece@[local]/uta_dev=> select *  from u01_mv where alts !~ ',' and u0_gs_n_exons = u1_gs_n_exons and u0_gs_se_i != u1_gs_se_i  order by 1;
     hgnc     │     alts     │       ac       │ u0_strand │ u0_tgs_status │ u1_tgs_status │ u0_t_n_exons │ u1_t_n_exons │ u0_gs_n_exons │ u1_gs_n_exons │                                                          u0_t_le
──────────────┼──────────────┼────────────────┼───────────┼───────────────┼───────────────┼──────────────┼──────────────┼───────────────┼───────────────┼─────────────────────────────────────────────────────────────────
 BAI1         │ NC_000008.10 │ NM_001702.2    │         1 │ NLxdi         │ NlxDI         │           30 │           30 │            30 │            30 │ 967;162;111;165;164;175;165;102;107;195;69;109;144;76;103;44;142
 CACNA2D2     │ NC_000003.11 │ NM_001005505.1 │        -1 │ NLxdi         │ NlxDI         │           38 │           38 │            38 │            38 │ 244;82;117;60;45;142;132;58;51;100;159;108;79;50;90;72;75;75;72;
 CD99L2       │ NC_000023.10 │ NM_001242614.1 │        -1 │ NLxdi         │ NLxdi         │           12 │           12 │            12 │            12 │ 295;63;71;88;69;84;66;39;120;18;66;2766                         
 CDRT4        │ NC_000017.10 │ NM_001204477.1 │        -1 │ NLXdi         │ NlXDI         │            4 │            4 │             4 │             4 │ 152;82;74;2190                                                  
 GFER         │ NC_000016.9  │ NM_005262.2    │         1 │ NlxDi         │ NLxdi         │            3 │            3 │             3 │             3 │ 328;197;1884                                                    
 LIN37        │ NC_000019.9  │ NM_019104.2    │         1 │ NLXdi         │ NlXDI         │            9 │            9 │             9 │             9 │ 398;76;51;29;87;167;141;74;127                                  
 MRGPRF       │ NC_000011.9  │ NM_001098515.1 │        -1 │ NLxdi         │ NlxDI         │            3 │            3 │             3 │             3 │ 299;116;1868                                                    
 NRK          │ NC_000023.10 │ NM_198465.2    │         1 │ NLxdi         │ NLxdi         │           29 │           29 │            29 │            29 │ 360;66;57;72;126;111;91;131;55;79;176;64;1156;108;68;95;98;365;3
 PIGB         │ NC_000015.9  │ NM_004855.4    │         1 │ NLxdi         │ NlxDI         │           12 │           12 │            12 │            12 │ 479;134;120;105;131;141;52;212;65;214;181;363                   
 PLCH2        │ NC_000001.10 │ NM_014638.2    │         1 │ NLXdi         │ NlXDI         │           22 │           22 │            22 │            22 │ 398;147;243;131;171;94;204;121;172;108;144;93;83;98;183;108;125;
 PSRC1        │ NC_000001.10 │ NM_001032291.2 │        -1 │ NLxdi         │ NlxDI         │            8 │            8 │             8 │             8 │ 105;58;58;442;115;270;94;603                                    
 S100A1       │ NC_000001.10 │ NM_006271.1    │         1 │ NLxdi         │ NlxdI         │            3 │            3 │             3 │             3 │ 100;154;339                                                     
 TVP23C-CDRT4 │ NC_000017.10 │ NM_001204478.1 │        -1 │ NLXdi         │ NlXDI         │            7 │            7 │             7 │             7 │ 195;83;145;90;132;74;2190                                       
(13 rows)




* comparisons of ncbi (splign) and ucsc (blat) data in uta1

** # genes, accesssions, base accessions in common and unique to ncbi and ucsc data
reece@[local]/uta_dev=> select * from  bermuda.blat_splign_content_overlap ;
┌───────┬────────┬───────┬──────┐
│ scope │ splign │ both  │ blat │
├───────┼────────┼───────┼──────┤
│ gene  │    881 │ 18183 │   24 │
│ base  │   1633 │ 32901 │   53 │
│ ac    │   2953 │ 32710 │  244 │
└───────┴────────┴───────┴──────┘

