Quelle distribution mes données suivent-elles?

31

Disons que j'ai 1000 composants et que j'ai collecté des données sur le nombre de fois où ils enregistrent une défaillance et chaque fois qu'ils enregistrent une défaillance, je garde également une trace du temps qu'il a fallu à mon équipe pour résoudre le problème. En bref, j'ai enregistré le temps de réparation (en secondes) pour chacun de ces 1000 composants. Les données sont fournies à la fin de cette question.

J'ai pris toutes ces valeurs et dessiné un graphique de Cullen et Frey en R en utilisant descdistle fitdistrpluspackage. Mon espoir était de comprendre si le temps de réparation suit une distribution particulière. Voici l'intrigue avec boot=500pour obtenir des valeurs amorcées:

entrez la description de l'image ici

Je vois que cette intrigue me dit que l'observation tombe dans la distribution bêta (ou peut-être pas, dans ce cas, qu'est-ce qu'elle révèle?) Maintenant, étant donné que je suis architecte système et non statisticien, quelle est cette intrigue révélatrice ? (Je recherche une intuition pratique dans le monde réel derrière ces résultats).

MODIFIER:

QQplot utilisant la qqPlotfonction dans le package car. J'ai d'abord estimé les paramètres de forme et d'échelle à l'aide de la fitdistrfonction.

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

Ensuite, j'ai fait ceci:

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

entrez la description de l'image ici

EDIT 2:

Mise à jour avec un QQplot lognormal.

entrez la description de l'image ici

Voici mes données:

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)
Légende
la source
7
Ce diagramme ne vous indique pas que votre distribution est bêta. Il indique que l'asymétrie et le kurtosis sont compatibles avec une version bêta - cela pourrait facilement être log-normal, par exemple, mais ce n'est probablement pas en fait l' une des distributions nommées sur ce diagramme.
Glen_b -Reinstate Monica
@Glen_b: Merci. Je viens également d'inclure un qqplot pour lognormal, mais même cela ne semble pas être un bon ajustement. Y a-t-il autre chose que vous recommandez que j'essaye? J'ai inclus mes données dans la question.
Legend
4
Je suis curieux de savoir pourquoi vous appelez cela une intrigue "Cullen Frey", quand elle a été introduite par Rhind en 1909 (et bien connue depuis des générations), 90 ans avant que Cullen et Frey n'écrivent quoi que ce soit ensemble! Voir l'article Wikipedia sur le système de distribution Pearson .
whuber
3
Nous voyons la loi d'Eponymy de Stigler en action. :-)
whuber
3
@whuber C'est une intrigue de Cullen et Frey, pas la visualisation par Rhind de l'espace Pearson. Il a des caractéristiques distinctement différentes, telles que la représentation des valeurs boostrapped, la superposition de la distribution uniforme, etc., etc. Il s'appuie sur le graphique de Rhind, mais tout en science s'appuie sur quelque chose avant lui (et nous ne voulons pas avoir à attribue tout aux inventeurs originaux et inconnus du feu et de la roue ...).
Hack-R

Réponses:

34

Le fait est que les données réelles ne suivent pas nécessairement une distribution particulière que vous pouvez nommer ... et en effet, il serait surprenant que ce soit le cas.

Donc, même si je pourrais nommer une douzaine de possibilités, le processus réel générant ces observations ne sera probablement rien que je puisse suggérer non plus. À mesure que la taille de l'échantillon augmente, vous serez probablement en mesure de rejeter toute distribution bien connue.

Les distributions paramétriques sont souvent une fiction utile, pas une description parfaite.

Examinons au moins les données de journal, d'abord dans un qqplot normal, puis sous forme d'estimation de la densité du noyau pour voir comment elles apparaissent:

Journal qqnorm (x)

Notez que dans un tracé QQ fait de cette façon, les sections de pente les plus plates sont celles où vous avez tendance à voir les pics. Cela suggère clairement un pic près de 6 et un autre d'environ 12,3. L'estimation de la densité du noyau du journal montre la même chose:

estimation de la densité du noyau

Dans les deux cas, l'indication est que la distribution du temps d' enregistrement est asymétrique, mais elle n'est pas clairement unimodale. De toute évidence, le pic principal se situe aux alentours de 5 minutes. Il se peut qu'il y ait un deuxième petit pic dans la densité de temps d'enregistrement, qui semble se situer quelque part dans la région de peut-être 60 heures. Il existe peut-être deux "types" de réparation très qualitativement différents, et votre distribution reflète un mélange de deux types. Ou peut-être qu'une fois qu'une réparation atteint une journée complète de travail, elle a tendance à prendre plus de temps (c'est-à-dire, plutôt que de refléter un pic à un peu plus d'une semaine, elle peut refléter un anti-pic à un peu plus d'une journée - une fois vous obtenez plus d'un peu moins d'une journée pour réparer, les emplois ont tendance à «ralentir»).

Même le journal du journal de l'époque est quelque peu asymétrique. Regardons une transformation plus forte, où le deuxième pic est assez clair - moins l'inverse de la quatrième racine du temps:

hist de -1 / (x ^ 0,25)

Les lignes marquées sont à 5 minutes (bleu) et 60 heures (vert pointillé); comme vous le voyez, il y a un pic juste en dessous de 5 minutes et un autre quelque part au-dessus de 60 heures. Notez que le "pic" supérieur se situe vers le 95e centile et ne sera pas nécessairement proche d'un pic dans la distribution non transformée.

Il y a aussi une suggestion d'un autre plongeon d'environ 7,5 minutes avec un large pic entre 10 et 20 minutes, ce qui pourrait suggérer une très légère tendance à «arrondir» dans cette région (pas qu'il y ait nécessairement quelque chose de fâcheux; même s'il n'y a pas de plongeon / pic de temps de travail inhérent là-bas, cela pourrait même être quelque chose d'aussi simple qu'une fonction de la capacité humaine à se concentrer sur une période ininterrompue pendant plus de quelques minutes.)

Il me semble qu'un mélange à deux composants (deux pics) ou peut-être à trois composants de distributions asymétriques décrirait assez bien le processus, mais ne serait pas une description parfaite.

Le package logsplinesemble choisir quatre pics dans le journal (temps):

parcelle de logpsine

avec des pics proches de 30, 270, 900 et 270K secondes (30s, 4,5m, 15m et 75h).

L'utilisation de logpline avec d'autres transformations trouve généralement 4 pics mais avec des centres légèrement différents (lorsqu'ils sont traduits dans les unités d'origine); cela est à prévoir avec les transformations.

Glen_b -Reinstate Monica
la source
2
+1 C'est une mine d'or d'informations sur moi. J'essaie de digérer tout ce que vous avez écrit et jusqu'à présent, cela m'a appris à réellement aborder ce type de problèmes. Quel est l'intérêt d'une transformation plus forte? Puis-je vous demander comment vous en êtes arrivé là? Est-ce avec l'expérience ou existe-t-il un moyen plus formel de choisir une telle transformation non conventionnelle? Veuillez excuser mon ignorance s'il s'agit d'une sagesse courante dans la communauté des statistiques. Mais je serais reconnaissant si vous pouviez me pointer vers une bonne référence pour apprendre ce genre de travail de "détective" qui me semble génial.
Legend
3
Référence appropriée à l'EDA: Tukey, JW (1977). Analyse exploratoire des données . Addison-Wesley, Reading, MA.
Glen_b -Reinstate Monica
3
Comme mentionné dans la réponse ci-dessus, vous pouvez essayer d'ajuster une distribution de mélange. Voici un article qui utilise ces hybrides pour la vitesse du vent - je pense que certaines des distributions sont des combinaisons de 3 autres distributions. journal-ijeee.com/content/3/1/27
rbatt
2
Pour un mélange, il s'agit de déterminer le nombre de composants que vous voulez, la distribution ou les distributions dont vous allez prendre un mélange (ce à quoi vous avez initialement posté), puis comment vous identifierez les paramètres des composants et les proportions des composants. Il existe un certain nombre de packages qui peuvent vous aider dans ces tâches; voici un article (pdf) sur l'un d'eux. Quelques-uns des packages de modélisation des mélanges sont mentionnés dans la vue Tâche d'analyse de cluster et de modélisation des mélanges finis ... (ctd)
Glen_b -Reinstate Monica
1
(ctd) ... Un autre exemple de package est rebmix . Ma propre analyse ci-dessus était basée sur des approches exploratoires plus simples, mais en l'état actuel, ce n'est pas encore un modèle de mélange entièrement identifié; cela suggère qu'un mélange à 4 composants pourrait être nécessaire. La dernière partie de ma réponse - la partie avec le log-spline est une approche différente (non paramétrique) pour modéliser des densités compliquées.
Glen_b -Reinstate Monica
12

La fonction descdist a une option pour amorcer votre distribution pour avoir une idée de la précision associée à l'estimation tracée. Vous pourriez essayer ça.

descdist(time_to_repair, boot=1000)

Je suppose que vos données sont compatibles avec plus que la distribution bêta.

En général, la distribution bêta est la distribution de proportions ou de probabilités continues. Par exemple, la distribution des valeurs de p à partir d'un test t serait un cas spécifique de distribution bêta selon que l'hypothèse nulle est vraie et la puissance de votre analyse.

Je trouve extrêmement improbable que la distribution de vos délais de réparation soit réellement bêta. Notez que ce graphique compare uniquement l'inclinaison et le kurtosis de vos données à la distribution spécifiée. La bêta est liée par 0 et 1; Je parie que vos données ne le sont pas, mais ce graphique ne vérifie pas ce fait.

En revanche, la distribution de Weibull est courante pour les temps de latence. De regarder la figure (sans les échantillons de bottes tracés pour mesurer l'incertitude), je soupçonne que vos données sont cohérentes avec un Weibull.

Vous pouvez également vérifier si vos données sont Weibull, je crois, en utilisant qqPlot à partir du package de voiture pour faire un qq-plot .

gung - Réintégrer Monica
la source
2
+1 Merci. Pendant que je comprends votre réponse, je viens de mettre à jour ma question avec le bootstrapparamètre réglé sur 500 dans la descdistfonction. Et oui, vous avez raison de dire que mes valeurs ne sont pas en [0,1]. Existe-t-il un moyen de montrer ce fait (appartenant à weibull) en utilisant ce graphique? Je vais essayer de mettre à jour ma question avec un QQPlot sous peu.
Légende
Je viens de mettre à jour ma question avec un qqPlotextrait du carpaquet.
Legend
Hmmm. Eh bien, le qq-plot ne donne pas l'impression que la distribution de Weibull est un bon ajustement.
gung - Réintégrer Monica
1
Et un de plus pour la distribution lognormale. Recommandez-vous un prétraitement que je devrais faire avec les données? Ou existe-t-il une meilleure façon d'estimer le meilleur ajustement? Je me demande encore comment utiliser le graphique Cullen / Frey dans mon contexte.
Légende
De plus, j'ai mis à jour ma question avec les données que j'utilise à la fin au cas où cela aiderait.
Legend
3

Pour ce que cela vaut, en utilisant la routine FindDistribution de Mathematica, les logarithmes sont très approximativement un mélange de deux distributions normales,

entrez la description de l'image ici

x=ln(data)

f(x)=0.0585522e0.33781(x11.7025)2+0.229776e0.245814(x6.66864)2

En utilisant 3 distributions pour faire une distribution de mélange, cela peut être

entrez la description de l'image ici

f(x)=0.560456 Laplace(5.85532,0.59296)+0.312384 LogNormal(2.08338,0.122309)+0.12716 Normal(11.6327,1.02011),
{0.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2x00.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)20<x<5.855320.472592e1.68646(x5.85532)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)2Otherwise

th

Carl
la source