Skan PDF wygląda jak dokument, ale bardzo często nim nie jest w sensie cyfrowym. Dla człowieka patrzącego na ekran może przypominać pismo, regulamin, uchwałę, formularz albo podpisane zaświadczenie. Dla komputera bywa jednak tylko obrazem kartki. To zasadnicza różnica. Jeśli w pliku nie ma prawdziwego tekstu, czytnik ekranu nie ma czego odczytać, wyszukiwarka w dokumencie nie znajduje słów, a użytkownik nie może wygodnie skopiować fragmentu. Dokument jest widoczny, ale nie jest naprawdę dostępny.
Problem skanów PDF jest powszechny, bo przez lata były najprostszym sposobem publikowania materiałów urzędowych i instytucjonalnych. Ktoś drukował pismo, podpisywał je, przykładał pieczątkę, skanował i umieszczał na stronie. W wielu organizacjach taki obieg nadal wydaje się naturalny. Plik wygląda oficjalnie, zawiera podpis, ma układ znany z papieru. Tyle że internet nie jest gablotą na zdjęcia dokumentów. Użytkownicy chcą treści, którą można przeczytać, przeszukać, powiększyć, odsłuchać i wykorzystać.
Skan jest obrazem. Może przedstawiać tekst, ale sam tekst nie istnieje w nim jako tekst. To podobna sytuacja jak ze zdjęciem plakatu na ścianie. Widzimy litery, ale program nie musi wiedzieć, jakie to litery, gdzie zaczyna się nagłówek, co jest tabelą, a co podpisem. Osoba widząca może odczytać skan, jeśli jakość jest dobra. Osoba korzystająca z czytnika ekranu usłyszy najczęściej nazwę pliku albo informację, że w dokumencie znajduje się obraz. Jeśli nie ma dodatkowej warstwy tekstowej, treść pozostaje niedostępna.
Dla czytników ekranu brak tekstu to bariera podstawowa. Czytnik nie interpretuje obrazu tak jak człowiek. Potrzebuje danych: znaków, struktury, kolejności, nagłówków, etykiet i opisów. Skan nie daje mu tych informacji. Jeśli instytucja publikuje program wydarzeń jako skan plakatu, osoba niewidoma może nie poznać daty, godziny ani miejsca. Jeśli urząd publikuje skan formularza, osoba korzystająca z technologii wspomagających może nie dowiedzieć się, jakie pola trzeba wypełnić. Jeśli organizacja publikuje skan regulaminu rekrutacji, część odbiorców nie ma samodzielnego dostępu do zasad.
Skan utrudnia też wyszukiwanie w dokumencie. Przy krótkim piśmie może się wydawać, że to niewielki problem. Przy kilkunastostronicowym regulaminie, uchwale, raporcie albo programie konferencji staje się poważny. Użytkownik chce znaleźć termin składania wniosków, wysokość opłaty, nazwę załącznika, numer paragrafu albo adres kontaktowy. W pliku tekstowym używa wyszukiwarki i trafia od razu we właściwe miejsce. W skanie musi czytać lub oglądać wszystko ręcznie. Dla osoby z niepełnosprawnością wzroku, dysleksją, zmęczeniem albo małym ekranem telefonu to może oznaczać rezygnację.
Kopiowanie tekstu ze skanu również nie działa albo działa źle. Użytkownik nie może łatwo przepisać numeru konta, adresu e-mail, fragmentu regulaminu czy cytatu z dokumentu. Musi robić to ręcznie, co zwiększa ryzyko błędu. W przypadku numerów, dat, danych formalnych i adresów nawet jedna pomyłka może mieć znaczenie. Dostępny dokument powinien pozwalać na bezpieczne korzystanie z treści, a nie zmuszać do przepisywania z obrazka.
Często pojawia się pytanie, czy OCR rozwiązuje problem. OCR, czyli optyczne rozpoznawanie znaków, może pomóc, bo zamienia obraz tekstu na warstwę tekstową. Po OCR-ze dokument często da się przeszukać i częściowo odczytać czytnikiem ekranu. To duży krok w porównaniu ze zwykłym skanem, ale nie wystarcza do pełnej dostępności. Rozpoznany tekst może zawierać błędy, zwłaszcza przy słabej jakości skanie, pieczątkach, pochyłym ułożeniu kartki, tabelach, przypisach albo starych dokumentach. Litera „l” może stać się cyfrą „1”, polskie znaki mogą zniknąć, a kolejność fragmentów może być pomieszana.
OCR zwykle nie tworzy poprawnej struktury dokumentu. Może rozpoznać słowa, ale nie zawsze wie, co jest nagłówkiem, listą, tabelą, przypisem albo podpisem. Dla użytkownika korzystającego z czytnika ekranu to nadal może być długi, chaotyczny strumień treści. Jeśli dokument ma dwie kolumny, tabelę z terminami albo pieczątkę zasłaniającą fragment tekstu, efekt bywa trudny do użycia. Dlatego OCR jest narzędziem pomocniczym, a nie usprawiedliwieniem dla publikowania skanów jako standardu.
Skan jest szczególnie kłopotliwy na urządzeniach mobilnych. Trzeba go powiększać, przesuwać w poziomie, czasem obracać ekran. Tekst bywa rozmyty, a kontrast zależy od jakości skanera i papieru. Osoba starsza lub słabowidząca może mieć problem nawet wtedy, gdy teoretycznie widzi dokument. Jeśli skan jest krzywy, za ciemny albo zapisany w niskiej rozdzielczości, korzystanie z niego staje się męczące dla wszystkich.
Z perspektywy instytucji publikowanie skanów często wynika z chęci pokazania dokumentu „z podpisem”. Warto jednak rozdzielić dwie funkcje: potwierdzenie formalne i dostęp do treści. Jeśli trzeba opublikować odwzorowanie podpisanego dokumentu, można jednocześnie udostępnić jego wersję tekstową. Użytkownik otrzymuje wtedy treść dostępną cyfrowo, a instytucja zachowuje możliwość pokazania skanu jako kopii oryginału. W wielu sytuacjach lepiej opublikować dokument wygenerowany z pliku źródłowego, a podpis elektroniczny lub informację o zatwierdzeniu rozwiązać zgodnie z procedurami organizacji.
Co zrobić zamiast publikowania skanu? Najlepiej zacząć od pliku źródłowego. Jeśli dokument powstał w edytorze tekstu, arkuszu albo systemie do obiegu dokumentów, należy eksportować go do PDF-a z zachowaniem tekstu i struktury, a nie drukować i skanować. Trzeba używać stylów nagłówków, prawdziwych tabel, list i opisowych linków. Jeśli dokument jest informacją dla mieszkańców, uczestników wydarzenia albo klientów, warto rozważyć publikację treści bezpośrednio na stronie jako HTML. To często najwygodniejsze rozwiązanie.
Jeśli istnieje tylko papierowy oryginał, warto wykonać OCR, sprawdzić rozpoznany tekst, poprawić błędy i w miarę możliwości nadać dokumentowi strukturę. Przy ważnych dokumentach lepszym rozwiązaniem może być przepisanie treści do dostępnego formatu. To wymaga pracy, ale daje użytkownikom realny dostęp. W przypadku archiwów można ustalić priorytety: najpierw dokumenty aktualne, wymagane, często pobierane albo kluczowe dla praw i obowiązków odbiorców.
Redaktorzy stron powinni mieć prostą zasadę: skan nie jest domyślną formą publikacji. Może być dodatkiem, kopią albo materiałem archiwalnym, ale nie powinien być jedynym sposobem przekazania ważnej treści. Jeśli plik zawiera regulamin wydarzenia, zasady rekrutacji, deklarację, formularz, program zajęć, cennik, ogłoszenie lub instrukcję, odbiorca powinien mieć dostęp do tekstu. W praktyce często oznacza to stronę HTML lub poprawnie przygotowany PDF.
Z perspektywy użytkownika różnica jest ogromna. Dostępny dokument można przeszukać, odsłuchać, powiększyć bez utraty jakości, skopiować z niego dane i przejść przez jego strukturę. Skan wymaga patrzenia i ręcznego rozszyfrowywania. Dla części osób jest niewygodny, dla innych całkowicie niedostępny. Jeżeli organizacja mówi, że zaprasza wszystkich, a najważniejsze informacje publikuje jako obrazy tekstu, zaproszenie traci swoją siłę.
W Bearded Wolf temat skanów wraca przy audytach WCAG, deklaracjach dostępności i porządkowaniu stron instytucji. Czasem nie trzeba od razu naprawiać całego archiwum z ostatnich dziesięciu lat. Trzeba jednak zatrzymać produkcję nowych barier i ustalić, które dokumenty są najważniejsze teraz. To zwykle dobry początek: przestać skanować to, co można wyeksportować z tekstu, a dla kluczowych skanów przygotować dostępne odpowiedniki.
Skan PDF nie jest dostępny dlatego, że pokazuje tekst, ale nie udostępnia go jako treści cyfrowej. Może być dowodem, kopią, śladem papierowego obiegu, ale nie powinien zastępować dokumentu, który użytkownik może samodzielnie przeczytać. Warto przejrzeć najczęściej pobierane pliki na stronie i sprawdzić prostą rzecz: czy da się zaznaczyć tekst, wyszukać słowo i zrozumieć dokument bez patrzenia na obraz strony. Jeśli nie, wiadomo, od czego zacząć.
