Le système sur lequel nous travaillons est biologique, plus précisément la distribution des événements programmés de dommages à l'ADN à travers un chromosome. Cela peut être considéré comme un réseau 1D (le chromosome) à travers lequel des points peuvent être choisis (les sites de dommages intentionnels). Nous avons cartographié les positions de ces événements expérimentalement et nous avons d'abord demandé s'ils correspondaient à une distribution aléatoire - c'est-à-dire que des dommages peuvent survenir à n'importe quel point le long du chromosome avec une chance égale et que les sites de dommages donnés sont indépendants les uns des autres. En générant des distributions aléatoires sur MATLAB (randi), cela s'est avéré ne pas être le cas.
En analysant les distances inter-points (IPD) des données réelles et modélisées, les données réelles sont vues comme ne s'écartant d'une distribution aléatoire qu'en dessous d'une certaine taille d'IPD, avant de rejoindre la distribution aléatoire au-dessus d'elle, c'est-à-dire qu'il y a moins IPD plus courts que ce à quoi on pourrait s'attendre par hasard dans les données réelles.
Exemples de résultats IPD:
Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)
Les IPD sont tracés ici sur un axe Y logarithmique et simplement en ordre croissant comme s'il s'agissait d'un histogramme. Comme vous pouvez le voir ci-dessous une certaine taille IPD (axe Y), la ligne bleue s'écarte de la ligne rouge.
L'hypothèse que nous testons (qui a une base biologique solide) est que la position d'un événement dépend de ceux déjà formés. Plus précisément, dès qu'un site est choisi, il invoque une zone de répression autour de lui, ce qui rend la région environnante moins susceptible d'être choisie comme site suivant. Cela permet d'espacer efficacement les événements et explique l'absence d'IPD plus courts. Cette zone diminue progressivement en intensité à mesure que vous vous éloignez d'un point choisi - expliquant le retour à l'indépendance au-dessus d'une certaine distance IPD.
Question : Existe-t-il une méthode mathématique permettant de dériver la forme de cette zone à partir des seuls ensembles de données aléatoires et réels? Par exemple, en calculant sa force (capacité à s'écarter du hasard) à chaque point donné jusqu'à ce que ses effets ne soient plus visibles?
La forme et l'échelle du triangle dans le diagramme ci-dessus est la principale chose que j'essaie d'obtenir (ce n'est pas nécessairement un triangle).
Nous avons un deuxième modèle qui simule cette hypothèse - et qui fournit des résultats prometteurs, mais nous avons besoin de conseils sur la forme, l'échelle, etc. de la zone de répression, sinon il s'agit plutôt d'essais et d'erreurs et plusieurs fenêtres + paramètres différents peuvent s'adapter.
J'ai déjà vu quelque chose de similaire fait auparavant en regroupant les IPD dans un histogramme, en ajustant une fonction de probabilité gamma puis en la convertissant en fonction de risque, mais je ne suis pas un mathématicien et je ne sais pas si c'est la bonne méthode ni comment s'y prendre. il.
Je travaille en grande partie dans MATLAB, donc si quelqu'un pouvait fournir de l'aide sous la forme de MATLAB, ce serait formidable - mais toute aide serait appréciée.
Données utilisées dans le graphique:
Real IPDs:
7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
Modelled IPDs:
6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
la source
Réponses:
Le problème est que vous avez supposé une certaine distribution aléatoire d'IPD et qu'elle ne correspond pas à la distribution empirique. Donc, la formulation de votre question est un peu déroutante compte tenu de l'explication que vous avez donnée jusqu'à présent. La «déviation» n'est pas due à l'aléatoire, mais à la distribution empirique de l'hypothèse théorique.
Vous générez des emplacementsxi∼U(0,1000) , où 0 et 1000 sont des bornes. Par conséquent, l'IPD estΔxi=|xi−xi−1| .
Nous pouvons trouver la probabilité inconditionnelle d'un petit IPD
Il s'agit d'une distribution particulière. Voici ses fonctions cumulatives et de densité:
L'axe des x est IPD et l'axe des y est les fonctions de probabilité cumulative (gauche) et de densité (droite).
Comme vous pouvez voir votre choix de modèle (c'est-à-dire la fonction randi), cela implique que la probabilité d'une petite distance est assez élevée, beaucoup plus élevée que celle d'un grand IPD. Votre phénomène biologique ne correspond probablement pas à ce modèle. Vous devez essayer un autre modèle.
la source