Indexation de document PDF, Word, Excel et Powerpoint

#1
Bonjour,
Je souhaiterai savoir si les librairies suivantes pdftotext, catdoc, xls2csv, ppthtml qui me permettraient d'extraire le contenu texte des documents de type PDF, Word, Excel ou Powerpoint, sont installées sur les distribution Linux de vos serveurs mutualisés ? Et sinon, est-il possible que vous les installiez ?
Vos suggestions pour l'utilisation d'une autre éventuelle solution sont les bienvenues !
Merci
 

pierre_kuhn

Active Member
#2
Bonsoir

On peut regarder cela effectivement, un collègue plus pointu te répondra dans la soirée.
 
#4
Bonjour,

Il y a également une autre solution pour indexer le contenu de ces documents via un toolkit JAVA nommé APACHE TIKA. Proposez-vous des solutions mutualisés qui nous permettraient d'avoir recours à une classe Java pour cette indexation.
Merci
 
#5
Marchine virtuelle Java sur hébergement mutualisé

Une machine virtuelle java (JVM) suffirait, nous avons uniquement besoin de lancer un .jar
 

F0rum

New Member
#6
Bonjour,
Je souhaiterai savoir si les librairies suivantes pdftotext, catdoc, xls2csv, ppthtml qui me permettraient d'extraire le contenu texte des documents de type PDF, Word, Excel ou Powerpoint, sont installées sur les distribution Linux de vos serveurs mutualisés ?
Bonjour,

J'aimerais aussi utiliser pdftotext afin de récupérer le texte des fichiers pdf, j'ai testé en copiant pdftotext dans le cgi-bin et en l’appelant d'un script en php mais cela ne fonctionne pas.

Quelle est la solution ? ( je précise que je suis sur un serveur mutualisé )

Merci.
 
Haut