Posted August 14, 201411 yr Dragi članovi Kluba,Voleli bismo da imamo neke kvalitetne tekstove na sajtu. Primera radi, Rebeku Vest, Edvarda Saida, V. G. Zebalda, Krležu, Kiša, itd. Da se radi o engleskim tekstovima bilo bi lako, jer se mogu naći na netu u tekstualnom formatu.Međutim, tekstovi na srpskohrvatskom teško se nalaze, čak i lektire i kanonizovani tekstovi. Nema skeniranih knjiga i retko se radi OCR.To rešavamo prekucavanjem ili OCR-ovanjem starih PDF-ova, ali to je zahtevan posao i ne bi bilo loše ako bi nam neko pomogao.Evo kako izgleda proces:(1) Treba skenirati knjigu ili naći odgovarajući PDF, na ćirilici ili latinici, srpskom ili hrvatskom, svejedno.(2) Treba uraditi OCR a onda, ukoliko je tekst na ćirilici, presloviti.(3) Treba proći kroz OCR-ovani tekst i ispraviti sve greške. Ukoliko se radi o ćirilici, grešaka će biti više, pa će i popravka biti napornija.Pošto sam juće instalirao kvalitetan OCR-softver, aktivnost (2) uvek mogu da obavim ja. Aktivnost (3) mogu da obavim takođe onda kada imam vremena, ali bilo bi lepo kada bi još ljudi to hteli da rade. Najveći problem je aktivnosti (1): skenirati knjige za koje ne postoje PDF-ovi.Za sada se traže sledeće knjige:- Saturnovi prstvenovi, V. G. Zebald- Orijentalizam, Edvard Said- Crno jagnje i sivi soko, Rebeka Vest Edited August 14, 201411 yr by Uroš Krčadinac
August 14, 201411 yr На послу имам доста времена, али слаб компјутер, дакле што се тиче куцања може, нешто захтевније тешко.Јел може да ми пошаљете 4-5 страница, па кад их одрадим следеће, и тако, пошто никад не знам кад ћу имати времена?
August 14, 201411 yr 1. Имам скенер и искуства у скенирању у ПДФ формату.2. (Мада никад нисам ОЦР-овао неки текст, па не знам да ли је потребно скенирати у већој резолуцији или шта...Користим ГНУ/Линукс систем и ИксСејн (X sane) програм за скенирање. )3. Да ли је код исправљања ОЦР-ованог текста неопходно имати текст за упоређивање (пдф или штампано издање), или се из самог текста може тачно одредити смисао? Да ли је брже прекуцати текст или исправљати ОЦР-ован? (Можем да куцам и "на слепо". ) Пресловљавање са ћирилице сам радио у ЛибреОфису (Libre Office).Ограничен сам количином брзог интернета на месечном нивоу. (У случају слања/примања фајлова од 100 мегабајта и више, морао бих користити туђи интернет - па самим тим слати/примати са дан-два закашњења - кад се договорим са рођацима. )Немам ни једну од актуелних књига. И тако...
August 14, 201411 yr Author Evo, iskopao sam PDF skraćenog Crnog jagnjeta. Trebalo bi ga prvo pročitati, videti je l sve okej, pa ako jeste, može se uraditi OCR i ostalo.Kada sam nedavno sređivao ćiriličnu Enciklopediju mrtvih bilo mi je lakše da ispravljam OCR-ovan tekst nego da prekucavam, ali i dalje je bilo puno posla. U svakoj rečenici bilo je nekoliko grešaka, a neke od njih bile su tolike da sam morao da upoređujem sa originalnim tekstom (iako sam priču čitao nekoliko puta).Uglavnom, dogovorićemo se koji su nam tekstovi prioritetni, pa ćemo vam javiti. Hvala u svakom slučaju!
August 14, 201411 yr Evo, iskopao sam PDF skraćenog Crnog jagnjeta. Trebalo bi ga prvo pročitati, videti je l sve okej, pa ako jeste, može se uraditi OCR i ostalo.Scribd даје опцију преузимања у .txt формату. Зар није лакше тако га преузети и онда исправити евентуалне грешке?! Ако је неко скинуо нека ми баци на мејл па да се договоримо ко ће шта да исправља.
August 14, 201411 yr Pa kad kliknem na to opet mi skine PDF. Je l' nešto krivo radim?Скинуо сам ја у текстуалном формату. Фајл је тежак 735 килобајта. Колико има пдф? Да разменимо фајлове..
August 14, 201411 yr Author PDF ima 1.36 MB. TXT mi možeš poslati na mejl, poslao sam ti adresu u forumov inbox.
Create an account or sign in to comment