2015. augusztus 29., szombat

Digitális szöveg formátumok

Digitális szövegformátumok


A kép- és szövegdigitalizálás legáltalánosabb eszköze a szkenner. Működése nagyon egyszerű: egy fénypászta levilágítja a képet, majd egy képfelvevő elem (CCD) képpontokra bontja a képet. Kép digitalizálásakor nagyon fontos a felbontás beállítása, amit pont per inch-ben adunk meg. Minél nagyobb a felbontás, annál jobb a kép minősége, de a kép mérete is nagyobb lesz. 

Szöveg digitalizálásához speciális szoftvereket, úgynevezett OCR programokat kell a szkenner mellett használnunk. Az OCR optikai karakterfelismerést jelent. A folyamat során a számítógép a szkennelt szöveg karaktereit a saját tárolt karakterképeivel való összehasonlítás után azonosítja, és ezek alapján digitális szövegfájlt hoz létre.

A digitalizált képek fontos tulajdonsága a felbontás. A digitalizálás soronként történik, és a szkenner egy sorban több ezer képpontot is képes felismerni. A felbontás minőségét DPI-ben (Dot Per Inch) vagy magyarul pont/inchben adjuk meg. Egy 300 DPI-s felbontás azt jelenti, hogy a digitalizált kép 1 képsora 1 inchen, azaz 2,54 centiméteren 300 különálló képpontból áll. Képernyőképek esetén 72-120 DPI-vel elég digitalizálnunk, nyomtatásra szánt képeknél a 300 vagy 600 DPI a használatos inkább.


A digitalizálás során különféle típusú és formátumú képeket készíthetünk, amelyek sok tulajdonságukban és felhasználási területeikben jelentősen eltérnek egymástól. A leggyakoribb formátum a JPEG, ezt elsősorban való környezetünket ábrázoló képek mentésére használhatjuk. A keletkező fájlok kisméretűek, de tudnunk kell, hogy veszteséges adattömörítéssel készülnek, így adatvesztés következik be, de maga a tárolási mód a szem érzékelésére alapítva teszi ezt meg. A karakterfelismerő programok általában nem tűnnek bonyolultnak, azonban sok szempontnak kell megfelelniük.

A felismerési folyamat részei:


  • az írás képének beolvasása;
  • a képen szereplő szövegblokkok, szövegsorok vizsgálata;
  • a blokkokban, sorokban szereplő betűk vagy betűpárok felismerése;
  • a felismert szöveg ellenőrzése (például helyesírás- vagy nyelvtani ellenőrzés).

A régebben készített szövegfelismerő programok egyik problémája volt, hogy csak jó minőségű, gépelt vagy nyomtatott szöveget voltak képesek felismerni, kézírást nem. Általában probléma volt a speciális karakterek és képletek felismerésével is. Az egyik legjobb ilyen program a Recognita Plus volt, amely sok elismerést nyert el, és magyar fejlesztésű.

Az újabb fejlesztésű OCR programok már tanuló funkcióval is rendelkeznek, így képesek lettek pár beolvasás közbeni rákérdezés után megtanulni újabb betűképeket is, és utána nagy biztonsággal felismerni, valamint felismerik a képeket a szövegben, azokat külön kezelik. Hasonló tanulási technikával működnek ma már a PDA-ba vagy éppen táblagépekbe alaptartozékként beégetett kézírás felismerő alkalmazások is.



A szövegszerkesztők


Szövegszerkesztőt szinte minden számítógépen dolgozó ember használ. A szövegszerkesztő program egy olyan eszköz, amellyel könnyen, gyorsan szép, esztétikus kiadványokat tud készíteni, amit a későbbiekben bármikor módosíthat, reprodukálhat, kinyomtathat. De szövegszerkesztő segítségével lehet programokat is írni.

Milyen munkákhoz használunk szövegszerkesztőt?


Programozáshoz: egyszerű (ASCII) szövegszerkesztők:

Ezeknél a szövegszerkesztőknél nem formázható a beírt szöveg. Programok, szöveges információs fájlok írhatók velük. Ilyen program Windowsnál a Jegyzettömb (NOTEPAD), vagy a NOTEPAD++ program.

Formázott dokumentumok - formázható szövegszerkesztők: 

Ezek már bonyolultabb szövegszerkesztők, amelyek segítségével formai beállításokat is végezhető (betűformázás, képbeillesztés, stb.) Ilyen például a Windowsnál WORDPAD, illetve a WORD szövegszerkesztő.

A jelenleg használatos korszerű szövegszerkesztők szerkesztés közben egyből azt a képet mutatják, amit nyomtatáskor kap. Ezeket WYSIWYG szövegszerkesztőknek nevezték el: what you see is what you Get = amit látsz, azt kapod. Ezt a szolgáltatást régen csak a drága kiadványszerkesztők nyújtották, de ma alapvető elvárás egy szövegszerkesztővel szemben.

Amit egy szövegszerkesztőtől elvárhatunk



Szöveg begépelése, szerkesztése magyar helyesírás-ellenőrzés mentés, visszatöltés, nyomtatás, betűformátumok (betűtípus, betűméret, kiemelések, betűszín, speciális díszítőjegyek…), bekezdésformátumok (igazítások, térközök, sorközök, felsorolás, számozás…), szegélyezések, hátterek, oldalformázások (papírméret, tájolás, margó…), élőfej, élőláb, oldalszámozás, képek beszúrása, táblázatok beszúrása, körlevelek, boríték címkék készítése

Ezen kívül az alap elvárás, hogy kompatibilis legyen a piacvezető szövegszerkesztővel, a Microsoft Word-del. Általánosan használt formátumok a doc, docx, rtf.

Mi az a PDF fájl formátum?

 


Ha egy fájlnak .pdf kiterjesztése van, nagyon valószínű, hogy Hordoztató Dokumentum Formátumban (PDF)-ben készült, melyet az Adobe Systems, Inc. fejlesztett ki. A PDF megtartja az eredeti dokumentum formázást, függetlenül attól, hogy nyomtatni, vagy megtekintetni akarja-e, egy többszörös számítógépes platformon, beleértve a Windows-t, UNIX-ot és a Mac-et.

A PDF fájlok megtekintése

Egy PDF fájl megtekintéséhez, le kell töltenie az Adobe® Acrobat® Reader programot, amelyik teljesen ingyenes szoftver Hordoztató Dokumentum Formátumú (PDF) fájlok megtekintéséhez és nyomtatásához a főbb hardver és operációs rendszer platformokon.

PDF navigációs jellemzők

Bizonyos szolgáltatások, amelyeket beépítettek a PDF specifikációba lehetővé teszik a szerzők számára, hogy bővítsék a dokumentum hasznosságát. Például könyvjelzőket lehet hozzáadni, minden oldalt bélyegképpé lehet alakítani, belső és külső linkeket lehet hozzátenni, űrlap mezőkkel, bekezdés jelzővel, navigációs gombokkal, jegyzettömbbel lehet ellátni, hogy megjegyzéseket lehessen fűzni az információkhoz, és változtatható nézetet biztosít, hogy nagyítani vagy kicsinyíteni lehessen az oldalt, hogy illeszkedjen a felhasználó számítógépének képernyőjéhez. A PDF segítségével a felhasználók 800 %-ra is nagyíthatnak a tisztaság elvesztése nélkül.
 
PDF méret és teljesítmény

Az interneten a kisebb fájlok kedvezőbbek, mivel a letöltési idő a fájl méretétől függ. A PDF fájlokat optimalizálni lehet a fájlméret csökkentésével és akár a HTML társaiknál 80 %-al kisebb fájlméretet is létre tud hozni.
A PDF fájlok linearizálhatóak, ami lehetővé teszi, hogy elkezdje a dokumentum megtekintését, mielőtt az teljesen letöltődik, az eljárás hasonló ahhoz, mint amikor az interneten videót továbbítanak.
A PDF zökkenőmentesen átszövi a legtöbb Web oldalt. A HTML és a PDF formátumok kombinációja lehetővé teszi a szerzőknek, hogy a tartalmat a legmegfelelőbb formátumban szolgáltassák, a technológiával szemben a tartalom követelményeinek megfelelően. Ráadásul a legnépszerűbb Web szervereken nincs tömörítés, fordítás vagy a PDF fájlok miatti büntetés.

PDF biztonság

A PDF jól bevált biztonsági funkciókkal működik. A PDF fájlok szerzői meg tudják akadályozni a szerkesztést, nyomtatást és/vagy a tartalom másolását (szöveg és grafika). A szoftverfejlesztők létrehozhatják a saját szoftvereiket a PDF fájlok olvasására, készítésére vagy módosítására, külön engedély vagy engedélyezés nélkül. Az egyetlen feltétel, amelyhez az Adobe ragaszkodik az, hogy a dokumentum szerzőjének PDF biztonsági beállításait vegyék figyelembe.


Nincsenek megjegyzések:

Megjegyzés küldése