Unconfigured Ad

**obifro** · 11-05-2012, 02:33 AM

I ended up coding it up. Only briefly tested but seems to do the trick, hope it's useful if anyone else needs such a script. Requires Bedtools.

Code:

#! /usr/bin/perl -w

# merge the exons from all transcripts for a given gene into a single 12 col bed line
# for each individual gene.

# Requires BEDTools to be installed and in $PATH

# ARGV[0] is a transcript BED file (eg as downloaded from ensembl)
# ARGV[1] is a tab delimited text file with geneID<tab>transcriptID for every transcript
# ARGV[2] is a working directory for tmp files.

# prints new BED file to STDOUT.

use strict;
use warnings;
use Data::Dumper;

my $usage = "usage: perl $0 <transcriptBedFile> <transcript2GeneFile> <workingdir>\n";

my $txBedFile = shift or die $usage;
my $tx2GeneFile = shift or die $usage;
my $workingdir = shift or die $usage;


# load all the transcripts and gene info
my %gene2tx = ();
open(TX2GENE, $tx2GeneFile) or die;
while (<TX2GENE>) {
	chomp;
	my @d = split/\t/;
	push(@{$gene2tx{$d[0]}}, $d[1]);
}
close TX2GENE;

# load all the bed lines:
my %bed = ();
open(TXBED, $txBedFile) or die;
while (<TXBED>) {
	my @d = split/\t/;
	$bed{$d[3]} = $_;
}
close TXBED;


# for each gene write all 12 col transcript lines, transform to a 6 col bed, sort, then merge exons, load, and write new
# bed file.
foreach my $gene (keys %gene2tx) {
	my @transcripts = @{$gene2tx{$gene}};
	my $geneTx12Bed = "$workingdir/$gene.tx.12.bed";
	my $geneTx6Bed = "$workingdir/$gene.tx.6.bed";
	my $geneExonsBed = "$workingdir/$gene.exons.merged.bed";
	
	open(TX12, ">$geneTx12Bed") or die "Failed to write to $geneTx12Bed: $!\n";
	foreach my $tx (@transcripts) { print TX12 $bed{$tx}; }
	close TX12;
	
	system "bed12ToBed6 -i $geneTx12Bed | sort -k1,1 -k2,2n > $geneTx6Bed";
	system "mergeBed -i $geneTx6Bed | sort -k1,1 -k2,2n > $geneExonsBed";

	my $strand = `cut -f 6 $geneTx6Bed | sort | uniq`;
	chomp $strand;

	open(EXONS, "$geneExonsBed") or die "Faield to read from $geneExonsBed: $!\n";
	my $geneChr = undef;
	my $geneChrStart = undef;
	my $geneChrEnd = undef;
	my @exonStarts = ();
	my @exonLengths = ();
	while (<EXONS>) {
		chomp;
		my ($chr, $start, $end) = split /\t/;
		unless(defined($geneChrStart)) {
			$geneChrStart = $start;
			$geneChr = $chr;
		}

		push(@exonStarts, $start - $geneChrStart);
		push(@exonLengths, ($end - $start));
		$geneChrEnd = $end;
	}
	
	my @bedLine = (
		$geneChr,
		$geneChrStart,
		$geneChrEnd,
		$gene,
		0,
		$strand,
		$geneChrStart,
		$geneChrEnd,
		0,
		scalar (@exonStarts),
		join(",",@exonLengths).",",
		join(",",@exonStarts).",",
		);
	
	print join("\t", @bedLine),"\n";
	
	system "rm $geneTx12Bed $geneTx6Bed $geneExonsBed";
}

**swaraj** · 10-21-2013, 09:09 AM

Hey Obifro,

Cool job!!! I was about to code for a script when I came across your post. It saved me some time. Thanks.

Topics	Statistics	Last Post
High-Resolution Sequencing Exposes Hidden Toxoplasma Diversity by SEQadmin2 Started by SEQadmin2, 07-02-2026, 11:08 AM	0 responses 12 views 0 reactions	Last Post by SEQadmin2 07-02-2026, 11:08 AM
New AI Model Captures Long-Range Genomic Signals to Improve RNA Splice Site Prediction by SEQadmin2 Started by SEQadmin2, 06-30-2026, 05:37 AM	0 responses 14 views 0 reactions	Last Post by SEQadmin2 06-30-2026, 05:37 AM
Large-Scale Protein Screen Uncovers Hidden Regulators of Alternative Polyadenylation by SEQadmin2 Started by SEQadmin2, 06-26-2026, 11:10 AM	0 responses 20 views 0 reactions	Last Post by SEQadmin2 06-26-2026, 11:10 AM
Whole-Genome Sequencing Traces Faroe Islands Ancestry to a North Atlantic Founder Population by SEQadmin2 Started by SEQadmin2, 06-17-2026, 06:09 AM	0 responses 54 views 0 reactions	Last Post by SEQadmin2 06-17-2026, 06:09 AM

Unconfigured Ad

Gene 12 Column BED file

Comment

Comment

Latest Articles

ad_right_rmr

News