www.vorhilfe.de
Vorhilfe

Kostenlose Kommunikationsplattform für gegenseitige Hilfestellungen.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Forum "Wahrscheinlichkeitsrechnung" - Binomial/Verteilung
Binomial/Verteilung < Wahrscheinlichkeit < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Wahrscheinlichkeitsrechnung"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Binomial/Verteilung: algorithmisches gene-finding
Status: (Frage) beantwortet Status 
Datum: 18:52 Di 23.02.2010
Autor: antipol

Aufgabe
So genannte 'T' 'A' 'T' 'A' boxen findet man statistisch haeufiger kurz vor einem bakteriellen gen (als genetischen promoter). betrachte eine dns mit 1000 unabhaengigen nukleotiden: unter verwendung eines bernoulli-modells, wie viele TATA-boxen erwarten wir im mittel mit welcher varianz.

Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.

der genetische code ist eine abfolge von A's T's G's und C's. untermengen des codes (die auf der dna willkuerlich vereinzelt verteilten gene) dienen dem jeweiligen zelltyp als anleitung zum bau der zellspezifischen proteine. wir suchen diese gene, etwa um anschliessend krankheiten auf deren potenzielle fehlfunktion im individuum zurueckfuehren zu koennen.

beim bakteriellen genom (die komplette dna) sind ueberdurchschnittlich viele TATA-abfolgen ein indikator fuer ein folgendes gen. die oben genannte frage moechte wissen, wie viele TATA-folgen wir alleine aus der zufaelligen verteilung der vier buchstaben (sie treten jeweils mit der wahrscheinlichkeit 0.25 auf) erwarten duerfen bei welcher varianz - hier bei 1000 stellen.

meine rechnung, die natuerlich falsch ist, lautet: ((0.25)*(0.25)*(0.25)*(0.25)) * (1000/4) = 0,9726.

fuer jemanden der sich auskennt, ist dies wahrscheinlich sehr einfach. fuer mich geht es hier um leben und tod. bitte helft mir. schickt mir bei rueckfragen gerne eine mail. danke philipp.

ps: die hier errechnete durchschnittliche wahrscheinlichkeit wuerde man ausserdem in den computer-programm--gene-finding-algorithmus hineinimplementieren, bevor man ihn ueber die 20gb dna-material jagt, der darin von dem biologischen wissen gebrauch macht, dass TATA-island gen-indikatoren sind.


        
Bezug
Binomial/Verteilung: Antwort
Status: (Antwort) fertig Status 
Datum: 18:57 Di 23.02.2010
Autor: abakus


> So genannte 'T' 'A' 'T' 'A' boxen findet man statistisch
> haeufiger kurz vor einem bakteriellen gen (als genetischen
> promoter). betrachte eine dns mit 1000 unabhaengigen
> nukleotiden: unter verwendung eines bernoulli-modells, wie
> viele TATA-boxen erwarten wir im mittel mit welcher
> varianz.

Zwischenfrage: Zählt TATATA als EINE Box (Position 1 bis 4) mit einem verstümmelten unbrauchbaren Rest (TA auf 5 und 6) oder als zwei sich überschneidende Boxen 1 bis 4 und 3 bis 6?
Gruß Abakus

Bezug
                
Bezug
Binomial/Verteilung: Frage (überfällig)
Status: (Frage) überfällig Status 
Datum: 19:19 Di 23.02.2010
Autor: antipol

von antipol an abakus: TATATA? berechtigte frage. beantworte sie selbst. oder waehle die annahme, fuer die du die aufgabe stochastisch loesen kannst. kannst die aufgabe gerne auch fuer beide annahmen loesen. ich wuerde TATATA als zwei ueberlappende TATA-boxen auslegen.

Bezug
                        
Bezug
Binomial/Verteilung: Fälligkeit abgelaufen
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 19:20 Do 25.02.2010
Autor: matux

$MATUXTEXT(ueberfaellige_frage)
Bezug
        
Bezug
Binomial/Verteilung: Beantworte sie selbst ?!
Status: (Antwort) fertig Status 
Datum: 11:36 Mi 24.02.2010
Autor: karma

Hallo und guten Tag,

welche verschiedenen Quadrupel (Vierer-Folgen, Boxen) lassen sich aus A's T's G's und C's bauen, Mehrfachauftreten eines der vier Buchstaben erlaubt?

Eines der Quadrupel (Boxen) ist TATA.

Mit welcher Wahrscheilichkeit zeigt eine Box TATA.

Wieviel Viererboxen passen in 1000 Stellen?

Ist nicht $n*p$ der Erwartungswert der Binomialverteilung zu $n$ und $p$?

Und ist nicht $n*p*(1-p)$ die Varianz der Binomialverteilung?

Was ist hier $n$, was $p$?

Was hat übrigens die Standardabweichung mit der Varianz zu tun?

Und was hat die Standardabweichung mit dem bakteriellen Gen zu tun?

Fragen über Fragen

Danke für die Auskunft.

Schönen Gruß
Karsten

Bezug
                
Bezug
Binomial/Verteilung: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 15:26 Mi 24.02.2010
Autor: antipol

welche verschiedenen Quadrupel (Vierer-Folgen, Boxen) lassen sich aus A's T's G's und C's bauen, Mehrfachauftreten eines der vier Buchstaben erlaubt?

- es lassen sich aus den vier buchstaben 4 hoch 4 quadrupel bauen, die alle gleich wahrscheinlich sind. bspw: aatc oder tttg oder auch actg.

Eines der Quadrupel (Boxen) ist TATA.

- richtig.

Mit welcher Wahrscheilichkeit zeigt eine Box TATA.

- mit (0.25)*(0.25)*(0.25)*(0.25).

Wieviel Viererboxen passen in 1000 Stellen?

- dies war die berechtigte frage von 'abakus'. ich wuerde von einer dna-sequenz 'gcatgtatatagtac' sagen, dass sie zwei tata/boxen beinhaltet. wenn dies allerdings das errechnen der wahrscheinlichkeit unmoeglich macht bzw. die in einer formel enthaltenen impliziten annahmen verletzt sind kann man sich dass auch anders intetrpretieren.

Ist nicht np der Erwartungswert der Binomialverteilung zu p und n?

- ich hatte ja geschrieben, dass ich von der loesung ((0.25)*(0.25)*(0.25)*(0.25)) * (1000/4) = 0,9726 denke, dass sie nicht richtig ist. ich ergaenze, dass ich das denke, weil tata's ja auch zwischen diesen boxen stehen koennten.

Und ist nicht  die Varianz der Binomialverteilung n(1-p)p?

- ja richtig.

Was ist hier n, was p?

- es gibt eben vier auspraegungen a t g c. die auslegung tata und nicht/tata ist nicht ganz sauber, da wie gesagt eine tata-box auch auf der 5. 6. 7. und 8. stelle liegen koennte.

Was hat übrigens die Standardabweichung mit der Varianz zu tun?

- ist das eine scherzfrage? die standardabsweichung ist meines wissen die wurzel aus der varianz.

Und was hat die Standardabweichung mit dem bakteriellen Gen zu tun?

- ist das eine scherzfrage? eine abfolge von a's t's g's und c's konstituiert das bakterielle genom, eine untermenge davon sind die gene, die man nicht sieht. aus ihrer forschung wissen genetiker aber, dass ueber das zu erwartende mass haeufig auftretende tata-quadrupel (signifikant wenn mehr als zwei standardabweichungen als der erwartungswert) ein indikator sind, dass in der vor einem liegenden sequenz ein bakterielles gen liegen koennte.


(windows vista interpretiert den z-taste als y und umgekehrt. die umlaut- und syntax-tasten sind auch falsch belegt. ueber das control panel 'tastatur' laesst es sich nicht justieren. das macht ueberfluessiges schreiben sehr anstrengend.)

...

Bezug
                        
Bezug
Binomial/Verteilung: Viererboxen in 1000 Stellen
Status: (Antwort) fertig Status 
Datum: 17:02 Mi 24.02.2010
Autor: karma

Hallo und guten Tag,

ich gebe ein Beispiel (statt 1000 Stellen der Kürze halber bloß 12 Stellen, die senkrechten Striche sollen die Boxen abteilen):

|1234|5678|9012:3 Boxen
123|4567|8901|2:2 Boxen
12|3456|7890|12:2 Boxen
1|2345|6789|012:2 Boxen

insgesamt [mm] $\frac{12}{4}+3*\frac{12-4}{4}=3+3*2=9$ [/mm] Boxen.

Wieviel unteschiedliche Viererboxen können demnach 1000 Stellen unterteilen?

Schönen Gruß
Karsten

PS: Die Frage nach der Standardabweichung war nicht als Scherzfrage gemeint;
"(signifikant wenn mehr als zwei standardabweichungen als der erwartungswert)"
beantwortet,
warum in der Aufgabe nach der Varianz gefragt wird.
Vergl. auch die [mm] $3\sigma$-(Faust-)Regel. [/mm]



Bezug
        
Bezug
Binomial/Verteilung: Antwort
Status: (Antwort) fertig Status 
Datum: 17:34 Mi 24.02.2010
Autor: abakus


> So genannte 'T' 'A' 'T' 'A' boxen findet man statistisch
> haeufiger kurz vor einem bakteriellen gen (als genetischen
> promoter). betrachte eine dns mit 1000 unabhaengigen
> nukleotiden: unter verwendung eines bernoulli-modells, wie
> viele TATA-boxen erwarten wir im mittel mit welcher
> varianz.
>  Ich habe diese Frage in keinem Forum auf anderen
> Internetseiten gestellt.
>  
> der genetische code ist eine abfolge von A's T's G's und
> C's. untermengen des codes (die auf der dna willkuerlich
> vereinzelt verteilten gene) dienen dem jeweiligen zelltyp
> als anleitung zum bau der zellspezifischen proteine. wir
> suchen diese gene, etwa um anschliessend krankheiten auf
> deren potenzielle fehlfunktion im individuum zurueckfuehren
> zu koennen.
>
> beim bakteriellen genom (die komplette dna) sind
> ueberdurchschnittlich viele TATA-abfolgen ein indikator
> fuer ein folgendes gen. die oben genannte frage moechte
> wissen, wie viele TATA-folgen wir alleine aus der
> zufaelligen verteilung der vier buchstaben (sie treten
> jeweils mit der wahrscheinlichkeit 0.25 auf) erwarten
> duerfen bei welcher varianz - hier bei 1000 stellen.
>
> meine rechnung, die natuerlich falsch ist, lautet:
> ((0.25)*(0.25)*(0.25)*(0.25)) * (1000/4) = 0,9726.
>  
> fuer jemanden der sich auskennt, ist dies wahrscheinlich
> sehr einfach. fuer mich geht es hier um leben und tod.
> bitte helft mir. schickt mir bei rueckfragen gerne eine
> mail. danke philipp.
>  
> ps: die hier errechnete durchschnittliche
> wahrscheinlichkeit wuerde man ausserdem in den
> computer-programm--gene-finding-algorithmus
> hineinimplementieren, bevor man ihn ueber die 20gb
> dna-material jagt, der darin von dem biologischen wissen
> gebrauch macht, dass TATA-island gen-indikatoren sind.
>  

Hallo,
ich habe das Ganze mal mit Excel simuliert. Dazu habe ich zehnmal 1000 Zufallszahlen 1 bis 4 erzeugt und ausgewertet, wie oft 1212 vorkam.
(Siehe angehängte Datei).
[a]Datei-Anhang
Mit F9 kann man die Zufallszahlen neu berechnen.
Gruß Abakus




Dateianhänge:
Anhang Nr. 1 (Typ: xls) [nicht öffentlich]
Bezug
        
Bezug
Binomial/Verteilung: Mitteilung
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 14:24 Do 25.02.2010
Autor: antipol

von antipol an karma: guter einwand. ich hatte selbst den gedanken im hinterkopf, dass die die viererboxen auch an der zweiten und dritten und vierten position einsetzen koennen, also an 996 stellen. bin dem aber nicht nachgegangen, weil es nicht gany korrekt ist. ich bin inzwischen auch einigermassen durchgestiegenwait ...

von antipol an abakus: danke fuer die excel datei. leider kann ich sie nicht oeffnen, da mir excal fehlt aber ich werde an hand von ihr jede theoretisch errechnete wahrscheinlichkeit an ihr empirisch ueberpruefen koennen. dankeschoen.ac

Bezug
                
Bezug
Binomial/Verteilung: an abakus und karma
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 14:44 Do 25.02.2010
Autor: antipol

in ergaenzung zur vorherigen mitteilung: ich arbeite das noch etwas aus und gebe dann ggf. bescheid.

Bezug
                        
Bezug
Binomial/Verteilung: Mein Tipp
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 17:50 Do 25.02.2010
Autor: karma

Hallo und guten Abend,

mein Tipp lautet:

$p$ ist etwas weniger als vier Promille,
Mittelwert [mm] $\my$ [/mm] eher $3.9$ als $4$,
Standardabweichung knapp unter $2$.

Schönen Gruß
Karsten

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Wahrscheinlichkeitsrechnung"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.mathebank.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]