Seqanswers Leaderboard Ad

**uloeber** · 03-21-2018, 05:12 AM

Update

Okay, I gave up on bioperl and wrapped my tabular output.
I got a multidimensional hash structure now.
How may I compare all qstart/qend values of %result{$consensus} and keep only the once which do not overlap or overlap more then a given tolerance?
$result{$qseqid}{$count}{'qstart'}
$result{$qseqid}{$count}{'qend'}

Any suggestions?

Code:

#! /usr/bin/perl -w
use strict;


#input -outfmt "6 qseqid sseqid qlen qstart qend slen sstart send length pident evalue"
open (INPUT, $ARGV[0]) or die $!;
my @blastin=<INPUT>;
close INPUT;

my $lqseqid="";
my %result;
my $count=0;
my @primres;
my @primer=("LTR","pol");
my @virus=("KoRV");
my %subres;

foreach my $line(@blastin){
        chomp $line;
        my @array=split "\t",$line;
        my $qseqid=$array[0];
#       my $sseqid=$array[1];
#       my $qlen=$array[2];
#       my $qstart=$array[3];
#       my $qend=$array[4];
#       my $slen=$array[5];
#       my $sstart=$array[6];
#       my $send=$array[7];
#       my $length=$array[8];
        if($qseqid=~$lqseqid){
                $result{$qseqid}{$count}{'qseqid'}=$array[0];
                $result{$qseqid}{$count}{'sseqid'}=$array[1];
                $result{$qseqid}{$count}{'qlen'}=$array[2];
#For later comparison, it's important, that the smaller position always is the start position
                if($array[3]<$array[4]){
                        $result{$qseqid}{$count}{'qstart'}=$array[3];
                        $result{$qseqid}{$count}{'qend'}=$array[4];
                }
                else{
                        $result{$qseqid}{$count}{'qstart'}=$array[4];
                        $result{$qseqid}{$count}{'qend'}=$array[3];
                }
                $result{$qseqid}{$count}{'slen'}=$array[5];
                $result{$qseqid}{$count}{'sstart'}=$array[6];
                $result{$qseqid}{$count}{'send'}=$array[7];
                $result{$qseqid}{$count}{'length'}=$array[8];
 $count++;
        }
        else{
                $lqseqid=$qseqid;
                $count=0;
        }
} 
#print "Key: $_ and Value: $result{$_}\n" foreach(keys%result);
#access toplevel (qseqid)
foreach my $consensus(keys%result){
                my $hitnum=keys%{$result{$consensus}};
#               print "$consensus\t$hitnum\n";          #print the number of hits for each query
        foreach my $hit(keys %{$result{$consensus}}){

#check primers depending on lenth ratio (alignment length/subject length) and sseqid
                my $lengthratio=0.9;
                for (@primer){
                        if($result{$consensus}{$hit}{length}/$result{$consensus}{$hit}{slen}>=$lengthratio){

                                if($result{$consensus}{$hit}{sseqid} =~ $_ ){           #compares sseqid to all elements of @primer match TRUE
#                                       push @primres, "$result{$consensus}{$hit}{qseqid}\t$result{$consensus}{$hit}{sseqid}\t$result{$consensus}{$hit}{qstart}\t$result{$consensus}{$hit}{qend}\t$result{$$
#                                       print "$result{$consensus}{$hit}";
                                }
                        }
# other subjects (not in primer list)                                 
                        else{                    #compares sseqid to all elements of @primer match FALSE
                                foreach(@virus){
                                        if($result{$consensus}{$hit}{sseqid} =~ $_){
                                                # search non overlapping significant hits

                                        }
                                        else{
                                                # search uncovered (non viral) regions
                                        }
                                }
                        }
                }

        }
}

Topics	Statistics	Last Post
The Adaptation of the Cell Cycle in Multiciliated Cells by seqadmin Started by seqadmin, Today, 06:58 AM	0 responses 13 views 0 likes	Last Post by seqadmin Today, 06:58 AM
New Method for DNA Sequence Amplification by seqadmin Started by seqadmin, Yesterday, 08:18 AM	0 responses 19 views 0 likes	Last Post by seqadmin Yesterday, 08:18 AM
New Tools Enhance Single-Molecule DNA Analysis with Minimal Samples by seqadmin Started by seqadmin, Yesterday, 08:04 AM	0 responses 18 views 0 likes	Last Post by seqadmin Yesterday, 08:04 AM
SIX2 Protein Identified as a Key Player in Prostate Cancer Treatment Resistance by seqadmin Started by seqadmin, 06-03-2024, 06:55 AM	0 responses 13 views 0 likes	Last Post by seqadmin 06-03-2024, 06:55 AM

Seqanswers Leaderboard Ad

Announcement

Parsing Blast xml using Perl (BioPerl)

Comment

Latest Articles

ad_right_rmr

News