<div dir="ltr">Tesseract is an open source OCR program. It can already<div>produce searchable PDF and will soon support streaming.</div><div>It would be fun to support something like this:<br></div><div><div><br></div><div>
   scanimage --batch | tesseract - - pdf > searchable.pdf</div><div><br></div><div>To make this work nicely, scanimage would need to</div><div>print the name of each file to stdout after it is written. </div></div><div>
<br></div><div>Thoughts?<br></div><div><br></div><div>Jeff</div></div>