Prema tekstu na službenom Google blogu, od sada su i skenirani PDF-ovi koji su dostupni u rasterskom obliku (kao slike), isto tako indeksirani i pretraživi po sadržaju kao i bilo koji drugi sadržaj na Google pretraživaču. Ovo je postignuto zahvaljujući korištenju OCRopusa, Googleovog OCR programa baziranog na HP-ovom Tesseractu. Google je već neko vreme radio na poboljšanju performansi ovoga programa koji donedvno nije bio ni do koljena komercijalnim programima te vrste (OCRopus je program otvorenog koda) i što se tiče prepoznavanja raznih tipova slova i što se tiče rečnika koji su nužan dio OCR programa. Na blogu se navode i primjeri skeniranih i OCR-anih PDF-ova koji se mogu pretraživati i kao HTML tekst (http://www.google.com/search?q=repairing+aluminum+wiring ili http://www.google.com/search?q=spin+lock+performance).
Izvor:bug.hr
Пре 11 сата(и)




0 komentari:
Постави коментар