Quelle est la différence entre les statistiques et l'informatique?

10

Nous disons toujours que les statistiques ne concernent que les données. Mais nous savons également que l'informatique tire également des connaissances de l'analyse des données. Par exemple, les personnes en bioinformatique peuvent totalement se passer de biostatistiques. Je veux savoir quelle est la différence essentielle entre la statistique et l'informatique.

Honglang Wang
la source
7
Non, c'est juste parce que le mot «informatique» a complètement perdu sa signification définitive. La "bioinformatique" a été inventée juste pour "la biologie faite sur ordinateur", il n'y a rien de profond là-dedans.
1
@mbq D'accord. «Informatique» et «Bioinformatique» ont perdu toute définition significative.
Fomite
de manière claire en bioinformatique (appliquez vos résultats pour observer vos résultats de manière biologique)
Kamal Alblwei

Réponses:

20

Excellente question !!

J'ai entendu à plusieurs reprises que les bioinformaticiens peuvent se passer de biostatistiques, voire de statistiques. C'est parfaitement vrai jusqu'à ce qu'il devienne faux. À mon avis, le manque général de connaissances statistiques a un effet désastreux sur le terrain, comme l'a montré Keith Baggerly . Je pourrais également observer que le manque de connaissances de base en statistiques (et en algèbre linéaire) est la cause de la stagnation des bioinformaticiens à long terme: sans une connaissance approfondie de la théorie, ils ont tendance à réinventer la roue et à recourir à des solutions ad hoc qui résolvent rien que leur propre problème.

Mais maintenant, pour répondre à votre question, je suis d'accord que dans l'ensemble, les statistiques ne peuvent pas se passer d'ordinateurs ces jours-ci. Pourtant, l'un des principaux aspects des statistiques est l' inférence , qui n'a rien à voir avec les ordinateurs. L'inférence statistique est en fait ce qui fait de la statistique une science, car elle vous indique si vos conclusions tiennent ou non dans d'autres contextes.

Bref, vous pouvez analyser l'enfer de vos données, vous aurez toujours besoin de statistiques pour connaître la validité des prédictions ou décisions que vous prendrez en fonction de vos analyses.

gui11aume
la source
Merci. Pourriez-vous expliquer davantage quel est le principe général de la bioinformatique pour en faire une discipline? Pour les statistiques, d'une manière générale, il y a deux parties principales, l'une est la manipulation pure de données, l'autre est l'inférence statistique, qui est basée sur la probabilité, l'une des mathématiques pures. Sur la base des modèles statistiques (modèles de probabilité), les statistes peuvent faire de la science. Et la bioinformatique?
Honglang Wang
4
La bioinformatique est simplement l'utilisation d'ordinateurs pour étudier les questions biologiques. Les disciplines sont généralement définies par les questions qu'elles posent, pas par leurs méthodes, donc la bio-informatique devrait faire partie de la biologie à mon avis. Il a un nom spécial parce que les biologistes sont très mauvais avec les ordinateurs, donc les gens qui peuvent le faire doivent avoir une étiquette spéciale. Je ne suis pas sûr que dans 50 ans, lorsque les biologistes seront meilleurs en informatique et en mathématiques, la bio-informatique existera toujours.
gui11aume
2
C'est agréable de voir quelqu'un d'autre apprécier les efforts de Keith. Il n'a certainement pas évité la controverse ou les situations professionnelles difficiles et inconfortables.
cardinal
@cardinal Saw Keith parle lors d'une conférence APHA il y a un an ou deux. Ce fut l'une des meilleures discussions que j'aie jamais vues.
Fomite
9

À mon avis, bien qu'il y ait un certain chevauchement entre les champs, il existe également des différences clés. En général, un étudiant en statistique (dans les degrés supérieurs) suivra plus de cours de théorie (mathématiques et mathématiques) que l'étudiant en informatique, mais l'étudiant en informatique en apprendra davantage sur le côté informatique (en particulier la partie base de données).

L'élaboration d'un nouveau test statistique incomberait davantage au statisticien qu'à l'informaticien, mais la conception d'une interface permettant à un utilisateur d'entrer des données et de produire des tableaux et des graphiques incomberait davantage à l'informaticien qu'au statisticien.

Pour le statisticien, l'ordinateur est un outil d'aide aux statistiques. Pour les informaticiens, les statistiques sont un outil pour aider à collecter et à diffuser des informations (via l'ordinateur en général).

Modifier ci-dessous ici -----

Pour étendre, voici un exemple. J'ai travaillé sur des projets avec des informaticiens (je suis le statisticien) où un médecin veut avoir un système où l'information sur les patients est utilisée pour prédire leur risque de maladie (développer un caillot de sang par exemple) et veut recevoir une certaine forme de alerte pour les informer du risque. Mon rôle dans le projet (le rôle de statisticien) est de développer un modèle qui prédira le risque compte tenu des variables prédictives (un modèle de régression logistique en est un). Le rôle de l'informaticien dans le projet est de développer les outils qui collectent les variables prédictives, d'utiliser mon modèle sur celles-ci, puis d'envoyer les résultats au médecin. Les données peuvent être collectées à partir d'un dossier médical électronique, ou via un écran de saisie de données pour une infirmière à remplir ou autres.

Maintenant, je (et de nombreux autres statisticiens) connaissons suffisamment la programmation pour pouvoir interroger une base de données pour obtenir les prédicteurs et créer un type d'alerte, mais je suis heureux de laisser cela aux informaticiens (et ils sont de toute façon meilleurs dans ce domaine). Il existe des informaticiens qui connaissent suffisamment de statistiques pour s'adapter au modèle de régression logistique. Ainsi, une version simple de ce projet pourrait être réalisée uniquement par un statisticien ou un informaticien, mais c'est mieux lorsque les deux travaillent ensemble. Si vous regardez ce projet et pensez que la partie modélisation est la partie amusante et que la collecte de données, les alertes et autres interfaces ne sont que des outils pour déplacer les informations vers et depuis le modèle, vous êtes plutôt un statisticien. Si vous voyez concevoir l'interface, optimiser la restitution des données, tester différents types d'alertes, etc.

Greg Snow
la source
(+1) J'aime le reste de cette réponse. Je ne suis pas sûr de bien comprendre ce que voulait dire la toute dernière phrase.
cardinal
1
Je pense que votre exemple est très agréable et donne un bon portrait de la configuration de base du terrain. J'aimerais pouvoir voter à nouveau pour juste cette partie. À votre santé.
cardinal
Votre exemple est vraiment cool. Merci beaucoup. Maintenant, je me pose juste une question. Pour le statisticien, si l'ensemble du modèle statistique devrait avoir une partie d'inférence, comme l'intervalle de confiance ou le test d'hypothèse, et donc basé sur des modèles de probabilité? Sinon, ils ne manipulent l'ensemble de données qu'en traçant et en résumant.
Honglang Wang
9

Les statistiques déduisent des données; L'informatique fonctionne sur les données. Bien sûr, ils se chevauchent, mais la question qui a la plus grande portée n'a pas de réponse.

stackovergio
la source
"Les statistiques déduisent des données; l'informatique fonctionne sur les données." C'est vraiment ce que je veux confirmer. Pour l'inférence, toujours basée sur la distribution de probabilité, elle doit inclure un test d'intervalle de confiance ou d'hypothèse. Sinon, vous n'utilisez que des données.
Honglang Wang