J'essaie de comprendre le contexte du célèbre livre de Minsky et Papert "Perceptrons" de 1969, si critique pour les réseaux de neurones.
Pour autant que je sache, il n'y avait pas encore d'autres algorithmes d'apprentissage supervisé génériques, à l'exception du perceptron: les arbres de décision n'ont commencé à être réellement utiles qu'à la fin des années 70, les forêts aléatoires et les SVM sont des années 90. Il semble que la méthode jackknife était déjà connue, mais pas la validation k-cross (années 70) ou bootstrap (1979?).
Wikipédia dit que les cadres statistiques classiques de Neyman-Pearson et Fisher étaient toujours en désaccord dans les années 50, malgré le fait que les premières tentatives pour décrire une théorie hybride étaient déjà dans les années 40.
Par conséquent, ma question: quelles étaient les méthodes de pointe pour résoudre les problèmes généraux de prévision à partir des données?
Réponses:
J'étais curieux à ce sujet, alors j'ai creusé. J'ai été surpris de constater que des versions reconnaissables de nombreux algorithmes de classification courants étaient déjà disponibles en 1969 ou à peu près. Les liens et citations sont donnés ci-dessous.
Il convient de noter que la recherche sur l'IA n'était pas toujours aussi axée sur la classification. Il y avait beaucoup d'intérêt pour la planification et le raisonnement symbolique, qui ne sont plus en vogue, et les données étiquetées étaient beaucoup plus difficiles à trouver. Tous ces articles n'étaient peut-être pas largement disponibles à l'époque non plus: par exemple, le travail sur le proto-SVM a été principalement publié en russe. Ainsi, cela pourrait surestimer les connaissances d'un scientifique moyen sur la classification en 1969.
Analyse discriminante
Dans un article de 1936 dans les Annals of Eugenics , Fisher a décrit une procédure pour trouver une fonction linéaire qui discrimine entre trois espèces de fleurs d'iris, sur la base de leurs dimensions de pétales et de sépales. Ce document mentionne que Fisher avait déjà appliqué une technique similaire pour prédire le sexe des mandibules humaines (os de la mâchoire) excavés en Égypte, en collaboration avec E. S Martin et Karl Pearson ( jstor ), ainsi que dans un projet de mesure crânienne distinct avec une Miss Mildred Barnard (que je n'ai pas pu retrouver).
Régression logistique
La fonction logistique elle-même est connue depuis le XIXe siècle, mais surtout comme modèle de processus de saturation, tels que la croissance de la population ou les réactions biochimiques. Tim renvoie à l'article de JS Cramer ci-dessus, qui est une belle histoire de ses débuts. En 1969, cependant, Cox avait publié la première édition d' Analysis of Binary Data . Je n'ai pas pu trouver l'original, mais une édition ultérieure contient un chapitre entier sur l'utilisation de la régression logistique pour effectuer la classification. Par exemple:
Les réseaux de neurones
Rosenblatt a publié un rapport technique décrivant le perceptron en 1957 et l'a suivi avec un livre , Principles of Neurodynamics en 1962. Des versions continues de la rétropropagation existent depuis le début des années 1960, y compris des travaux de Kelley , Bryson et Bryson & Ho (révisés en 1975, mais l'original date de 1969. Cependant, il n'a été appliqué aux réseaux de neurones que un peu plus tard, et les méthodes de formation des réseaux très profonds sont beaucoup plus récentes. Cet article de la recherche scientifique sur l'apprentissage profond contient plus d'informations.
Méthodes statistiques
Je soupçonne que l'utilisation de la règle de Bayes pour la classification a été découverte et redécouverte à plusieurs reprises - c'est une conséquence assez naturelle de la règle elle-même. La théorie de la détection du signal a développé un cadre quantitatif pour décider si une entrée donnée était un "signal" ou un bruit. Certains d'entre eux sont sortis de la recherche radar après la Seconde Guerre mondiale, mais ils ont été rapidement adaptés aux expériences de perception (par exemple, par Green et Swets ). Je ne sais pas qui a découvert que l'hypothèse d'indépendance entre les prédicteurs fonctionne bien, mais les travaux du début des années 1970 semblent avoir exploité cette idée, comme résumé dans cet article . Soit dit en passant, cet article souligne également que Naive Bayes était autrefois appelé "idiot Bayes"!
Soutenir les machines vectorielles
En 1962, Vapnik et Chervonenkis ont décrit le "Generalized Portrait Algorithm" ( terrible scan, désolé ), qui ressemble à un cas particulier d'une machine à vecteur de support (ou en fait, un SVM à une classe). Chervonenkis a écrit un article intitulé "Early History of Support Vector Machines" qui décrit cela et leur travail de suivi plus en détail. L'astuce du noyau (noyaux en tant que produits internes) a été décrite par Aizerman, Braverman et Rozonoer en 1964. svms.org a un peu plus sur l'histoire des machines à vecteurs de support ici .
la source
AVERTISSEMENT : Cette réponse est incomplète, mais je n'ai pas le temps de la mettre à jour en ce moment. J'espère y travailler plus tard cette semaine.
Question:
quelles étaient les méthodes de pointe pour résoudre les problèmes de genres de prédiction à partir de données vers 1969?
Remarque: cela ne va pas répéter l'excellente réponse de «Matt Krause».
«État de l'art» signifie «le meilleur et le plus moderne» mais pas nécessairement réduit à la pratique comme norme industrielle. En revanche, la loi américaine sur les brevets recherche "non évident" tel que défini par "l'homme du métier". L '«état de l'art» pour 1969 a probablement été déposé dans des brevets au cours de la prochaine décennie.
Il est extrêmement probable que les approches "les meilleures et les plus brillantes" de 1969 aient été utilisées ou évaluées pour être utilisées dans ECHELON (1) (2) . Elle montrera également dans l'évaluation de l'autre superpuissance mathématique de l'époque, l'URSS. (3) Je mets plusieurs années à fabriquer un satellite, et on peut donc s'attendre à ce que la technologie ou le contenu des ~ 5 prochaines années de satellites de communication, de télémétrie ou de reconnaissance montrent l'état de l'art de 1969. Un exemple est le satellite météorologique Meteor-2 a commencé en 1967 et sa conception préliminaire a été achevée en 1971. (4) L'ingénierie des charges utiles spectrométriques et actinométriques est informée par les capacités de traitement de données de la journée et par le traitement des données "proche-futur" envisagé de l'heure. Le traitement de ce type de données permet de rechercher les meilleures pratiques de la période.
Une lecture du "Journal of Optimization Theory and Applications" existe depuis plusieurs années et son contenu est accessible. (5) Considérez ceci (6) évaluation des estimateurs optimaux, et celle des estimateurs récursifs. (sept)
Le projet SETI, lancé dans les années 1970, utilisait probablement une technologie et des techniques à moindre budget plus anciennes pour s'adapter à la technologie de l'époque. L'exploration des premières techniques SETI peut également parler de ce que l'on considérait comme un leader vers 1969. Un candidat probable est le précurseur de la " valise SETI ". La «valise SETI» a utilisé le DSP pour construire des récepteurs d'autocorrélation dans environ 130 k canaux à bande étroite. Les gens de SETI cherchaient particulièrement à effectuer une analyse du spectre. L'approche a d'abord été utilisée hors ligne pour traiter les données Aricebo. Il a ensuite été connecté au radiotélescope Aricebo en 1978 pour des données en direct et le résultat a été publié est un schéma de principe montrant le processus. la même année . Le Suitecase-SETI a été achevé en 1982. Ici (lien)
L'approche consistait à utiliser des transformées de Fourier longues hors ligne (~ 64k échantillons) pour rechercher des segments de bande passante, y compris la gestion du chirp et la compensation en temps réel du décalage Doppler. L'approche n'est "pas nouvelle" et des références ont été fournies, notamment: Voir, par exemple,
Les outils utilisés pour la prédiction de l'état suivant étant donné l'état précédent qui étaient populaires à l'époque comprennent:
Les "mots-clés" (ou mots à la mode) courants incluent "adjoint, variationnel, gradient, optimal, second ordre et conjugué".
La prémisse d'un filtre de Kalman est un mélange optimal de données du monde réel avec un modèle analytique et prédictif. Ils étaient utilisés pour faire en sorte que des missiles frappent une cible en mouvement.
la source