Je crée un analyseur pour l' .one
extension de fichier, que lorsque j'aurai terminé, j'ajouterai au projet Apache Tika.
Voici le projet Open Source sous licence APL 2.0 que je crée: https://github.com/nddipiazza/onenote-parser-java
J'ai utilisé le document de spécification ici: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Comme point de départ, j'ai porté sur le code de ce projet C ++ open source: https://github.com/dropbox/onenote-parser
J'ai parcouru un long chemin dans l'analyse des documents, mais j'ai heurté un barrage routier.
Voici le fichier OneNote que j'utilise pour analyser: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
Je ne parviens pas à afficher Section1TextArea1 et Section1TextArea2 dans mes résultats analysés. Il me manque donc une sorte d'élément d'analyse de données clé ou quelque chose.
Il se trouve définitivement dans le fichier OneNote lui-même. Je peux le voir dans la visionneuse Hex:
Voici la sortie d'analyse JSON: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
J'ai l'impression que le document de spécification manque des informations très importantes nécessaires pour analyser ce format propriétaire.
Quel (s) élément (s) principal (s) me manque-t-il, ce qui m'empêche d'obtenir le contenu textuel réel?
la source