Téléchargez un document LibreOffice ou Windows, un PDF ou une image JPG, PNG ou GIF pour en extraire le texte. Indexez le texte avec Solr. Retrouvez par pertinence les documents correspondant à un texte précis ou approximatif, une langue, une date, un nom ou une taille de fichier. Affinez une recherche en suivant des suggestions. Affichez la liste des termes indexés par un document. Trouvez des documents similaires à un document. Obtenez un rapport complet sur tous les termes de votre index par langue avec pour chaque terme, le nombre de documents correspondant et sa fréquence maximum dans un document.

Configurez l'extraction en images d'un PDF et la préparation des images pour l'OCR (résolution, orientation, coloration, contraste, luminosité, redimensionnement, etc.) et réutilisez ce jeu de paramètres par programme avec l'API.

The quick brown fox
jumps over
the lazy dog.

Recherche

 q

 fq

 2 • 

2022-11-28 02:00 45 en fox.txt

The quick brown fox
jumps over
the lazy dog.

2022-11-28 02:00 30,9k en fox.jpg

The quick brown fox
jumps over
the lazy dog.

Téléchargez la liste des termes indexés par un document. Lancez une recherche de proximité pour afficher la liste des documents similaires à un document de référence et des termes en commun. Cliquez sur le caret pour basculer l'affichage des extraits.

xof.jpg

Ce PDF contient une image qui est à l'envers.

$ curl -s --fail --show-error -X POST "https://bezillion.com/api/v1/indexfile?login=abcdef&password=ABCDEF" -F "lang=eng" -F "psm=6" -F "rotate=180" -F "file=@xof.pdf" -o -
{"status":"success","data":null}

L'image dans le PDF est automatiquement extraite telle quelle, retournée et lue avec Tesseract en mode 6 - Assume a single uniform block of text - avec les données entraînées pour la langue anglaise.

Indexez un document

Toutes les fonctionnalités sont disponibles gratuitement dans l'interface de votre espace personnel. Indexer un fichier par l'API est un service payant. Toutes les autres opérations, comme rechercher un fichier sont gratuites. Voir le Guide de l'utilisateur.

Solr est une plateforme logicielle de moteur de recherche s'appuyant sur la bibliothèque Lucene.

Lucene est une bibliothèque de fonctions d'indexation et de recherche d'un texte.

Tika est une boîte à outils qui permet de détecter et d'extraire le texte et les métadonnées de plus d'un millier de types de documents.

Tesseract est un logiciel libre de reconnaissance optique de caractères sponsorisé par Google depuis 2006.

Ghostscript est une suite logicielle dédiée au traitement des fichiers Postscript et PDF.

Poppler fournit un jeu de commandes pour extraire les pages, le texte et les images des fichiers PDF.

Toutes les communications sont cryptées.

L'accès à votre index est protégé. Les fichiers que vous téléchargez sont inaccessibles à autrui et les fichiers qui sont traités et générés par l'API sont automatiquement détruits.

Vous souhaitez ajouter l'indexation et la recherche de documents dans votre service web ? bezillion.com est un logiciel développé par un éditeur ouvert au partage des connaissances et du code. Pour contacter mcPaLo, cliquez ici.