Recherche de fichiers PDF à partir du terminal avec pdfgrep

Les utilitaires de ligne de commande comme grep et ack-grep Ils sont excellents pour les modèles de recherche des fichiers texte qui correspondent à une expression régulière spécifique. Mais avez-vous déjà essayé d'utiliser ces utilitaires pour rechercher des modèles dans un fichier PDF? Eh bien, non! Vous ne recevez aucun résultat parce que ces outils ne peuvent pas lire les fichiers PDF; lire uniquement les fichiers de texte brut.

Pdfgrep Comme son nom l'indique, il est une petite ligne de commande utilitaire qui vous permet de rechercher du texte dans un fichier PDF sans ouvrir le fichier. Il est incroyablement rapide & # 8211; Recherche plus rapide que prévu par pratiquement tous les téléspectateurs des documents PDF. Une grande différence entre grep et pdfgrep est que pdfgrep fonctionne dans les pages, alors que grep fonctionne en lignes. Elle imprime également une seule ligne plusieurs fois si elle est plus d'un match sur cette ligne. Voyons voir comment utiliser l'outil exactement.

Installation

Ubuntu et autres distributions Linux basées sur Ubuntu, il est assez simple:

 Sudo apt install pdfgrep

Pour les autres distributions, il suffit de fournir pdfgrep comme entrée pour le gestionnaire de paquets Et cela devrait l'installer. Vous pouvez également consulter la page du projet gitlab ce Si vous voulez jouer avec le code.

Test Run

Maintenant que vous avez installé l'outil, nous allons faire un test. La commande pdfgrep prend cette forme:

 Pdfgrep [OPTION ...] MODÈLE [FICHIER ...]

OPTION est une liste d'attributs supplémentaires pour donner la commande -i ou & # 8211; ignorer cas, en ignorant la distinction entre spécifié et qui correspond au fichier de configuration une fois régulière

.

MOTIF il est seulement une expression régulière étendue.

DOSSIER Il est seulement le nom de fichier, si dans le même répertoire de travail, ou chemin de fichier.

J'exécutant la commande dans la documentation officielle de Python 3.6. L'image ci-dessous est le résultat.

Les feux rouges indiquent tous les endroits où trouve le mot « queue ». option -I de passer en commande comprend correspondances du mot « file d'attente ». Rappelez-vous, le cas peu importe quand -i est passé comme une option.

extras

pdfgrep a un certain nombre d'options intéressantes à utiliser. Cependant, seulement je vais couvrir quelques-uns ici.

    • -c o & # 8211; compte: supprime la sortie normale des parties. Au lieu de montrer le long chemin de coïncidences, il montre seulement une valeur qui représente le nombre de fois que le mot a été trouvé dans le fichier

.

  • -p o & # 8211; en page nombre: Cette option imprime les numéros de page des résultats et le nombre d'occurrences du modèle à la page
  • -m o & # 8211; nombre max-[nombre]: indique le nombre maximum de matches. Cela signifie que lorsque le nombre de correspondances est atteinte, la commande arrête la lecture du fichier.

La liste complète des options prises en charge se trouve dans les pages de manuel en ligne ou pdfgrep Documenation . Ne pas oublier que pdfgrep peut rechercher dans plusieurs fichiers simultanément, si vous travaillez avec des fichiers volumineux. Le point culminant par défaut de couleur assortie peut être modifiée en modifiant l'environnement GREP_COLORS variable.

conclusion

La prochaine fois que vous pensez à l'ouverture d'un fichier PDF pour trouver quoi que ce soit, pensez à utiliser pdfgrep. L'outil est très utile et vous faire gagner du temps.

Maintenant que tu as fini de lire Recherche de fichiers PDF à partir du terminal avec pdfgrep, nous t'invitons à explorer davantage la catégorie Linux. Tu y trouveras d'autres articles intéressants qui élargiront tes connaissances et te tiendront informé. Ne cesse pas de lire et de découvrir plus!

Index
  1. Installation
  2. Test Run
  3. extras
  4. conclusion

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Go up