Nuage mémoire

Publié le par /

Karl réfléchit à un outil simple pour indexer intelligemment son carnet Web et ceux de ses voisins. Sa réflexion m’en a rappelé une plus ancienne, de David, qui a expérimenté un navigateur de contenus et réfléchissait à du partage de l’index avec ses pairs.

Il y a quelques années, j’ai collaboré à un projet de recherche autour de l’indexation sémantique de contenus. Nous utilisions une catégorisation humaine assistée de plusieurs outils développés par des chercheurs et une entreprise. Ces outils cherchaient à créer des liens entre textes sémantiquement proches. Leurs conditions d’utilisation étant malheureusement assez restrictives, j’avais cherché des alternatives libres qui auraient éventuellement permis au projet initial de s’émanciper. Et avais découvert qu’un Solr correctement configuré ne s’en sortait pas trop mal, même en français (un gros problème de tous les outils d’analyse sémantique est que leur pertinence dépend grandement de la qualité des dictionnaires dont on les nourrit. La langue anglaise possède de nombreuses ressources permettant d’obtenir de bon résultats. Malheureusement, de telles ressources étaient rares pour le français (en version librement utilisables du moins), et je présume que la situation est encore pire pour la majorité des langues, réservant dans les faits les outils d’analyse automatisés à quelques langues). À l’époque déjà — il y a plusieurs années — des outils libres permettaient de créer des moteurs qui allaient plus loin que la simple recherche textuelle, qui comprenaient vaguement le sens des textes et étaient capable de trouver des corrélations. Je présume que la qualité de leurs résultat s’est depuis améliorée.

Malheureusement, ces outils sont lourds, gourmands (Solr est écrit en Java) et assez complexes à mettre en œuvre. Les paramétrer demande du temps et quelques compétences, même pour un amateur éclairé. C’est donc un domaine où une solution « clé en main » offrirait une véritable valeur ajoutée. Sous la forme d’un simple composant correctement configuré dans un conteneur aisé à installer partout, ou d’un serveur personnel géré par un tiers (le cloud comme disent les jeunes dans le vent).

J’aimerais disposer d’un tel outil, indexant mes diverses productions (ces esquisses, mes gazouillis…), les écrits des membres de ma sphère (les flux ATOM des carnets que je suis régulièrement), voire l’ensemble de mes conversations (messages électroniques et instantanés, canaux IRC où je filtre, etc). Mieux, poursuivant le rêve de David, j’aimerais un outil qui archive tout ce que je lis, donc agisse comme intermédiaire entre moi et les sites Web. Il pourrait en profiter pour les nettoyer (en augmenter la lisibilité en supprimant les réclames notamment) et les augmenter (par exemple en me signalant si certains de mes proches ont déjà interagi avec cette page).

Avis donc aux bidouilleurs de nuages. Au lieu de re-créer inlassablement les mêmes services, sous prétexte qu’ils n’ont pas été inventés ici, voici une idée d’usage encore balbutiant et qui pourrait se révéler utile à quelques personnes.

Cette esquisse a notamment été inspirée par :

Pour réagir, n'hésitez-pas à m'écrire : clochix chez clochix.net ou à soumettre l'url de votre commentaire :
(Je traite les mentions à la main, elles peuvent mettre plusieurs jours avant d'apparaître)

Si vous avez un compte Github, vous pouvez me proposer des corrections en éditant ce billet

Fork me on GitHub