J'ai ce projet parallèle où j'explore les sites d'information locaux de mon pays et je veux construire un indice de criminalité et un indice d'instabilité politique. J'ai déjà couvert la partie recherche d'informations du projet. Mon plan est de faire:
- Extraction de rubrique non supervisée.
- Détection des doublons proches.
- Classification supervisée et niveau d'incident (crime / politique - élevé / moyen / faible).
J'utiliserai python et sklearn et j'ai déjà recherché les algorithmes que je peux utiliser pour ces tâches. Je pense que 2. pourrait me donner un facteur de pertinence d'une histoire: plus il y a de journaux publiés sur une histoire ou un sujet, plus pertinent pour cette journée.
Ma prochaine étape est de construire l'index mensuel, hebdomadaire et quotidien (national et par ville) sur la base des fonctionnalités que j'ai, et je suis un peu perdu ici car la "sensibilité à l'instabilité" pourrait augmenter avec le temps. Je veux dire, l'indice de l'incident majeur d'instabilité de la dernière année pourrait être inférieur à l'indice de cette année. Également si vous souhaitez utiliser une échelle fixe de 0 à 100 ou non.
Plus tard, j'aimerais pouvoir prédire des incidents sur cette base, par exemple si la succession d'événements au cours des dernières semaines conduit à un incident majeur. Mais pour l'instant, je serai heureux de faire fonctionner la classification et de construire le modèle d'index.
J'apprécierais tout pointeur sur un article, des lectures ou des réflexions pertinentes. Merci.
PD: Désolé si la question n'appartient pas ici.
MISE À JOUR : Je n'ai pas encore "réussi", mais récemment il y a eu des nouvelles d'un groupe de scientifiques qui travaillent dans un système pour prédire les événements en utilisant des archives de nouvelles et ont publié un article pertinent Mining the Web to Predict Future Events (PDF ).
la source
Réponses:
Considérez les variations du score GINI.
Il est normalisé et sa sortie varie de 0 à 1.
ÉDITER:
Pourquoi GINI est "cool" ou au moins potentiellement approprié:
C'est une mesure de l'inégalité ou de l'inégalité. Il est utilisé comme mesure sans échelle pour caractériser l'hétérogénéité des réseaux sans échelle, y compris les réseaux infinis et aléatoires. Il est utile dans la construction d'arbres CART car il s'agit de la mesure de la puissance de fractionnement d'un partage de données particulier.
En raison de sa gamme:
Parce qu'il est normalisé:
Les références:
la source