Je veux étudier le comportement de fixation des prix des compagnies aériennes - en particulier la façon dont les compagnies aériennes réagissent aux prix des concurrents.
Comme je dirais que mes connaissances sur l'analyse plus complexe sont assez limitées, j'ai principalement utilisé toutes les méthodes de base pour recueillir une vue d'ensemble des données. Cela inclut des graphiques simples qui aident déjà à identifier des modèles similaires. J'utilise également SAS Enterprise 9.4.
Cependant, je recherche une approche plus basée sur les nombres.
Base de données
L'ensemble de données (auto) collectées que j'utilise contient environ 54 000 tarifs. Tous les tarifs ont été collectés dans un délai de 60 jours, sur une base quotidienne (tous les soirs à 00h00).
Par conséquent, chaque tarif dans cette fenêtre horaire se produit fois sous réserve de la disponibilité du tarif ainsi que de la date de départ du vol, lorsqu'il est dépassé par la date de perception du tarif. (Vous ne pouvez pas percevoir de tarif pour un vol lorsque la date de départ du vol est passée)
Le non formaté qui ressemble essentiellement à ceci: (fausses données)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" est calculé via où
- I & intervalle (jours avant le départ)
- s & date du prix (départ du vol)
- c & date à laquelle le tarif a été perçu
Voici un exemple d'ensemble de données groupées par I (DaysBeforeDep.) (Fausses données!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Ce que j'ai trouvé jusqu'à présent
En regardant les graphiques linéaires, je peux déjà estimer que plusieurs lignes auront un facteur de corrélation élevé. Par conséquent, j'ai essayé d'utiliser l'analyse de corrélation d'abord sur les données groupées. Mais est-ce la bonne façon? En gros j'essaye maintenant de faire des corrélations sur les moyennes plutôt que sur les prix individuels? Y a-t-il un autre moyen?
Je ne sais pas quel modèle de régression convient ici, car les prix ne se déplacent sous aucune forme linéaire et semblent non linéaires. Aurais-je besoin d'adapter un modèle à chacune des évolutions de prix d'une compagnie aérienne
PS: Ceci est un long mur de texte. Si j'ai besoin de clarifier quoi que ce soit, faites le moi savoir. Je suis nouveau dans ce sous-marin.
Quelqu'un un indice? :-)
En plus de l'analyse exploratoire des données (EDA), à la fois descriptive et visuelle, j'essaierais d'utiliser l' analyse des séries chronologiques comme une analyse plus complète et sophistiquée . Plus précisément, j'effectuerais une analyse de régression de séries chronologiques . L'analyse des séries chronologiques est un vaste domaine de recherche et de pratique.Par conséquent, si vous n'êtes pas familier avec les principes fondamentaux, je suggère de commencer par l'article Wikipédia ci-dessus, de rechercher progressivement des sujets plus spécifiques et de lire les articles, articles et livres correspondants.
Depuis l' analyse des séries chronologiques est une très populaire approche, il est pris en charge par la plupart open source et la source fermée commerciale la science des données et statistiques des environnements (logiciels) , tels que R , Python , SAS , SPSS et bien d' autres. Si vous souhaitez utiliser R pour cela, consultez mes réponses sur l'analyse générale des séries chronologiques et sur la classification et le regroupement des séries chronologiques . J'espère que cela vous sera utile.
la source
ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001
Je suppose que ces résultats indiquent des modèles de prix similaires. Avec une analyse de régression, que découvrirais-je?