Pyt: Co to znaczy, że brakuje mi jakiejś deklaracji charsetu? Jak ma ta deklaracja wyglądać i gdzie jej szukać? Odp: Są to trzy linie w nagłówku – części listu, której normalnie nie widać (jak ją zobaczyć – patrz następne pytanie). W przypadku listu w formacie zwykłego tekstu, bez załączników, wyglądają one tak: MIME-Version: 1.0
Content-Type: text/plain; charset=iso-8859-2
Content-Transfer-Encoding: 8bit
zmienna charset może mieć inną wartość, w zależności od użytego charsetu (najczęściej w polskich warunkach oprócz zamieszczonego w przykładzie iso-8859-2 będą to us-ascii i utf-8, możliwe też są m.in. iso-8859-13, iso-8859-16 i windows-1250), zaś Content-Transfer-Encodingmoże też przyjmować wartość Quoted-Printable (wówczas w treści pełno jest kodów zaczynających się od znaku równości, wyglądających przykładowo tak: =B1) lub Base64 (wówczas treść jest w ogóle nieczytelna dla człowieka). W linii Content-Typeza deklaracją charsetu mogą być jeszcze parametry format=flowed i delsp=yes, rozdzielone średnikami.
Pyt: Jak zajrzeć do tego nagłówka? Odp: Zależy od programu (niestety). W OE jest to kombinacja Alt+F3, w Thunderbirdzie Ctrl+U, w innych programach może być jeszcze inaczej, szukana pozycja menu zazwyczaj nazywa się „źródło”, po angielsku „source” lub „raw view”. UWAGA: w podglądzie źródła często polskie litery mogą wyglądać na popsute, ale to jest tylko efekt optyczny związany z niedoskonałością programu, który w trybie podglądu źródła nie uwzględnia deklaracji charsetu.
Pyt: Po co to wszystko? Przecież można pisać bez tych wszystkich ogonków, tyle lat było dobrze bez nich, nikomu to nie przeszkadza! Odp: Po to, żeby było wygodnie i poprawnie. Tyle lat było dobrze bez prywatnych samochodów, bez lodówek, bez radia, telewizji ani internetu – dalej, zrezygnuj z tego wszystkiego, te nowe wynalazki cywilizacyjne nie są ci potrzebne.
Inny argument: nieprawdą jest, że brak ogonków nikomu nie przeszkadza. Nie przeszkadza półanalfabetom, którzy czytają składając wyrazy z poszczególnych liter. Normalni ludzie czytają rozpoznając całe słowa, a czasem nawet całe frazy. Słów ani fraz napisanych z błędami nie można rozpoznać w ten sposób i ktoś taki czyta tekst bez ognków (i z dużą ilością innych błędów) dużo wolniej. Problem ten jeszcze mocniej dotyka osoby mające umiejętność szybkiego czytania (rozpoznające całe długie zdania i akapity). Poza tym ogromna większość ludzi to wzrokowcy i często spotykane błędy się utrwalają, co spowalnia pisanie (trzeba się zastanawiać, jak dane słowo napisać).
W szczególności spowalnia czytanie występowanie słów, które bez ogonków mają odmienne znaczenie, np. łaska – laska, piec – pięć, zadanie – żądanie, lawa – ława, ładowanie – lądowanie. Ale żeby zauważyć różnicę, należy posiadać umiejętność czytania szybszego niż literowanie i sylabizowanie pod nosem.
Pyt: Nie rozumiem za bardzo, po co ta konfiguracja mojego mailera czy czytnika, czemu teraz (bez konfiguracji) jest źle? Odp: Odpowiedzi jest kilka. Po pierwsze tego wymagają normy internetowe RFC 2045, RFC 2046, RFC 2047 i RFC 2822. Stosowanie się do norm jest niezbędne, by można było się w ogóle porozumiewać niezależnie od używanego programu czy systemu operacyjnego. Po drugie sposobów kodowania polskich liter jest ponad dwadzieścia pięć, większość z nich jest co prawda martwa, ale w powszechnym użyciu jest ich więcej niż jeden, stąd wymagane jest przekazanie poprawnej informacji o tym, jakiego kodowania używasz. Kiedyś w przyszłości wszystkie kodowania mają być zastąpione przez unikod (UTF-8), ale do tego bardzo daleka droga. Po trzecie czytnik nie jest wyposażony w inteligencję i nie ma bladego pojęcia, w jakim języku piszesz, jakie kodowania są używane dla tego języka ani jakiego kodowania używa się np. na danej grupie dyskusyjnej – a więc jaki charset zastosować. Oczywiście w niektórych czytnikach może być ustawienie domyślnego charsetu, ale to wymaga dodatkowej konfiguracji i do tego w niektórych czytnikach nie istnieje rozwiązanie, gdy użytownik czyta newsy czy dostaje pocztę w wielu językach.
Pyt: U mnie widać dobrze, dlaczego ktoś mi zwraca uwagę, że mam źle skonfigurowany program? U mnie posty X wyświetlają się dobrze, dlaczego ktoś zwraca mu uwagę, że ma źle skonfigurowany program? Odp: Z różnych powodów różne programy cechują się różną odpornością na błędy, która częściowo kompensuje brak konfiguracji. Zwykle program, który błędnie wysyła, potrafi ten błąd sam wewnętrznie naprawić. Sytuacja, w której poprawne wyświetlanie polskich liter zapewnia poprawna konfiguracja programu nadawcy, jest sytuacją optymalną – polskie litery zostaną pokazane prawidłowo zawsze i u wszystkich. Gdy nadawca ma nieskonfigurowany program i wysyła technicznie niepoprawne wiadomości, poprawne wyświetlanie można uzyskać jedynie naprawiając jego wiadomość po stronie odbiorcy, co nie zawsze jest możliwe, nie zawsze działa poprawnie, i w efekcie osiąga się efekt, że polskie litery będą prawidłowo wyświetlone tylko u niektórych odbiorców oraz nie w każdej sytuacji. Więcej .
Pyt: Dlaczego ignorujesz istnienie IE 7 i 8? Czemu nie opiszesz konfiguracji nowszych wersji IE? IE 6 to staroć, a IE 8 całkiem dobrze obsługuje standardy. Odp: Nie ignoruję, ale te wersje nie są przeznaczone dla mojego systemu operacyjnego. Może kiedyś będę miał dostęp do XP SP2 / SP3 albo Visty z IE 7 lub 8, wtedy może opiszę konfigurację nowszych wersji IE. Na razie tylko wiem z opisów, że IE 7 to taki sam gniot, jak poprzednie wersje, IE 8 (wreszcie!) lepiej obsługuje standardy obowiązujące dziś, nie pod koniec lat 90. XX w. (w tym wreszcie obsługuje HTML 4.01 i CSS 2.1). Dopisane: już nie ignoruję istnienia IE 8.
Pyt: Czy możesz opisać konfigurację Netscape Navigatora 9 i 8, K-meleona, Flocka, Avant browsera, Seamonkey? Odp: Avant Browser jest nakładką na Internet Explorer i z tego, co wiem, nie wymaga żadnej dodatkowej konfiguracji. Użyj ustawień dla IE. Pozostałe wymienione programy są oparte o silnik Gecko – ten sam, który stanowi „serce” Firefoksa (i Thunderbirda). Jeżeli nie możesz połapać się w klikalnych opcjach konfiguracyjnych (które mogą wyglądać inaczej niż w Fx wględnie Tbirdzie), użyj instrukcji edycji prefs.js i wpisów w prefs.js podanych dla Fx/ Tbirda – prawie na 100% wszystkie będą działać. Netscape 9 jest oparty o Firefoksa 2 (ostatnia wypuszczona wersja, oznaczona jako 9.0.0.6, jest oparta o Fx 2.0.0.12). Netscape 8 może używać jako silnika zarówno Gecko (stając się niejako nakładką na Fx 1.0.7), jak i silnika IE (stając się rozbudowaną nakładką na IE, jak Avant browser). Konfiguracja albo będzie podobna do konfiguracji Firefoksa w odpowiedniej wersji, albo identyczna z konfiguracją IE.
Pyt: Używam Outlooka (nie Outlook Express) do poczty, jak można go użyć do czytania newsów? Używam mailera X do poczty, żaden czytnik mi nie pasuje (albo: lubię mieć pocztę i newsy w jednym), jak można go użyć do czytania newsów? Odp: O ile nie jest to kombajn, mailer nie może być bezpośrednio użyty do czytania newsów (ani na odwrót). Można sobie za to pomóc zewnętrznymi programami lub usługami:
Uwaga: czasem można jeszcze natknąć się na opis jeszcze jednej formy dostępu do newsów z użyciem Outlooka opiera się na faktycznym uruchomieniu – z wszelkimi tego konsekwencjami – OE (Windows XP i wcześniejsze) względnie Windows Mail (Windows Vista), patrz artykuł MS .
Pyt: Jak połączyć się z serwerem poczty obsługującym szyfrowane połączenie? Odp: Zależy od serwera i tego, czy się wysyła, czy się odbiera. Serwery poczty obsługują zwykle jeden z dwóch sposobów szyfrowania: SSL i TLS. Rodzaje szyfrowania i domyślne porty:
Wysyłanie: SMTP, szyfrowanie: TLS, port: 25 lub (coraz częściej) 587.
Wysyłanie: SMTP, szyfrowanie: SSL, port: 465.
Odbieranie: IMAP, szyfrowanie: TLS, port: 143.
Odbieranie: IMAP, szyfrowanie: SSL, port: 993.
Odbieranie: POP3, szyfrowanie: TLS, port: 110.
Odbieranie: POP3, szyfrowanie: SSL, port: 995.
Niektóre programy do nawiazania połączenia bezpiecznego wymagają obecności bibliotek OpenSSL . Dla Windows są to pliki libeay32.dll i jeden z następujących bądź oba: libssl32.dll lub ssleay32.dll. Niektóre programy są rozprowadzane już z właściwymi plikami, inne wymagają ściągnięcia tych plików osobno. Programy są pisane w różny sposób i mogą zadowolić się dowolną parą plików lub wymagać konkretnej pary plików – zwykle pomaga zmiana nazwy pliku. Jeżeli pliki te umieszcza się w katalogu systemowym (%Windir%\system32), można drugi plik skopiować i zmienić jego nazwę tak, by mieć w sumie trzy pliki (z czego dwa identyczne, różniące się tylko nazwą). Istnieją też (nieliczne) programy, które wymagają, by odpowiednie pliki SSL były umieszczone w katalogach instalacyjnych tych programów. Jak wszystkie programy, biblioteki OpenSSL należy regularnie uaktualniać. Warto przypomnieć, że programy mając wybór używają plików z własnego katalogu w pierwszej kolejności, biblioteki dołączone do programów mogą być przestarzałe, więc nie wystarczy posiadać aktualne wersje bibliotek w katalogu systemowym, należy również uaktualniać lub usuwać te pliki z katalogów instalacyjnych programów. Z opisanych na tej stronie programów pocztowych połączenia szyfrowane obsługują m.in. OE (OEPT nie może być użyty jako tunel przy połączeniu szyfrowanym z serwerem poczty, ale nie wpływa to na większość jego funkcji), Mozilla Thunderbird, M2 (Opera) i Pegasus Mail, Hamster wymaga obecności bibliotek OpenSSL. W przypadku programów nieobsługujących szyfrowanego połączenia można skorzystać z Hamstera lub tunelu SSL .
Jak połączyć się z serwerem news obsługującym połączenie szyfrowane? Odp: Nieliczne serwery news pozwalają na zestawienie połączenia szyfrowanego SSL. Taki serwer wymaga podania numeru portu 563 (domyślny to 119) oraz zaznaczenia połączenia szyfrowanego (z użyciem SSL). Konfiguracja jest analogiczna do konfiguracji klienta poczty (patrz punkt wyżej).
Hamster: Należy uaktywnić ustawienia zaawansowane (Advanced settings), we właściwościach serwera na zakładce Ustawienia SSL (SSL settings) wybrać opcję Zawsze używaj SSL… (Always use SSL…). Inne ustawienia domyślnie są ustawione tak, jak jest niezbędne do działania (zaznaczone RC2, RC4 i MD5). Do działania niezbędne jest posiadanie w systemie bibliotek OpenSSL .
Pyt: Czy możesz opisać konfigurację programu X? Odp: Nie, jak wspomniałem na stronie głównej, aktualizacja i rozbudowa serwisu zostały zakończone z powodów tam wymienionych.
Pyt: Czy będą opisy konfiguracji kont pocztowych (gdzie wpisać nazwę serwera, jak się uwierzytelnić…)? Odp: Nie. Takich informacji dostarczają administratorzy sieci, dostawcy kont pocztowych itp. Proszę ich pytać. Wielu dostawców kont pocztowych, w tym darmowych, ma swoje strony www zawierajace szczegółowe instrukcje i pokazujące na zrzutach ekranu, gdzie co wpisać.
Pyt: Z jakiego serwera news mam korzystać? Odp: Jeszcze w latach dwutysięcznych odpowiedź brzmiała, że zwykle optymalny wybór to serwer twojego dostawcy internetu (poszukaj na jego stronie www, zadzwoń, wyślij maila z pytaniem). W drugiej dziesięciolatce XXI w. jest duża szansa, że dostawca nie zapewnia dostępu do grup dyskusyjnych. Możesz wybrać serwer z listy serwerów na stronie chmurki Gophiego .
Pyt: Skąd wziąć słownik języka polskiego dla programu X, ale taki, który zawiera słowa polskie w wersji bezogonkowej? Odp: Nie ma takich. Pisownia bez ogonków jest takim samym błędem, jak pomylenie ż z rz czy h z ch (czy się napisze zolw, czy rzułf, to tak samo zrobi się trzy błędy ortograficzne w słowie żółw). Niektóre programy używają słowników w formie tekstowej listy słów, można je sobie samodzielnie przekonwertować. Udzielenie dalszej pomocy jest niemożliwe.
Pyt: Przecież netykieta zabrania używania polskich liter! Odp: Proszę, znajdź w netykiecie ten zakaz i zacytuj go w pełni. Zakaz ten obowiązywał bardzo dawno temu, do około połowy lat 90., gdyż obsługa MIME w programach używanych powszechnie w Polsce była prawie nieistniejąca. Od drugiej połowy lat 90. polskie litery są dozwolone, a oprócz tego zasadą ogólnego savoir-vivre’u jest nierobienie błędów – błędy w tekście pisanym świadczą o lekceważeniu adresata(ów). Obecnie przyjmuje się szeroko, że należy pisać z polskimi literami, o ile względy techniczne nie uniemożliwiają tego.
Pyt: Przecież nie wolno używać unikodu! Wolno używać tylko ISO! Odp: Ależ skąd, wolno, jak najbardziej wolno. Po pierwsze w prywatnej korespondencji mailowej zawsze wolno było używać takiego kodowania, jakie pasowało obu stronom. Jeżeli obu stronom pasuje UTF-8, to innym nic do tego. Po drugie, co do środków komunikacji bardziej publicznej, gdzie docelowy odbiorca nie jest ściśle określony (strony www i grupy dyskusyjne), to dawno temu, około połowy lat dziewięćdziesiątych, rzeczywiście używanie unikodu było niedopuszczalne (i do ok. połowy pierwszej dekady XXI w. formalnie zakazane na grupach dyskusyjnych w hierarchii .pl, choć zapis był tak sformułowany, że można go było interpretować na więcej sposobów) z uwagi na bardzo niewielki wybór aplikacji obsługujących to kodowanie. Użycie kodowania innego niż ISO 8859_2 powodowało problemy dla znacznej części internautów, zwłaszcza używających systemów operacyjnych innych niż Windows (w tym korzystających z terminali znakowych, wówczas bardzo powszechnych na uczelniach wyższych). Obecnie na każdą platformę dostępne są aplikacje obsługujące unikod, w tym aplikacje konsolowe (np. Lynx, który po uruchomieniu w XTerm Unicode obsługuje całość unikodu, a uruchomiony w konsoli ISO potrafi dokonać transliteracji znaków spoza ISO na np. litery łacińskie bez ogonka), a w FAQ hierarchii .pl zapis mówiący wyłącznie o ISO-8859-2 został zastąpiony zapisem mówiącym o stosowaniu ISO-8859-2 lub UTF-8. Tu dodam, że w mailowej korespondencji prywatnej przy pierwszym kontakcie wybór ISO był zwykle dobrym wyborem, ale korespondenci zawsze mieli możliwość uzgodnienia dowolnego kodowania. Jeszcze warto dodać na marginesie, że unikod to też norma ISO, a dokładnie ISO 10646, więc od tej strony jest równoprawny z ISO 8859_2.
Pyt: Co złego jest w kodowaniu Windows? Też jest normowane – normą ANSI. Odp: Nie jest normowane żadną normą. To często powtarzany błąd wynikający z tego, że MS dla kodowań Windows wprowadził określenie „kodowania ANSI” – patrz słownik terminologii MS . Na podobnej zasadzie MS wprowadził określenie „OEM” dla stron kodowych DOS, mimo że nie mają one nic wspólnego z OEM (a dokładnie to nie mają więcej wspólnego z OEM niż strony kodowe Windows – oba zostały opracowane przez MS i są lub były używane w produktach MS i innych producentów). A co do używania kodowania WIndows – w prywatnej korespondencji, jeżeli to odpowiada obu stronom, to jak najbardziej może być używane (jak każde inne), ale używanie go w kontaktach z bliżej nieokreśloną grupą odbiorców, np. na usenecie, to bardzo zły pomysł.
Pyt: Czemu strony są w HTML 4, nie XHTML albo HTML5? HTML 4 to przestarzały standard. Odp: W momencie pisania tego serwisu HTML 4.01 nie był przestarzały. XHTML dopiero wchodził na rynek, a HTML5 jeszcze nie był unormowany. Dodatkową zaletą HTML 4.01 była kompatybilność z przestarzałymi przeglądarkami, których wówczas używało stosunkowo sporo osób. Dobrze napisany kod wykazuje niewiele różnic w porównaniu z XHTML i HTML5, w tym też może używać stylów i w ogóle nie używać atrybutów prezentacyjnych. A powody wyboru HTML 4.01 jako języka strony były cztery: pierwszy to brak obsługi XHTML przez Internet Explorer, a jego użytkownicy stanowili wówczas znaczącą grupę internautów. Drugi to brak obsługi tego formatu dla stron statycznych przez serwer, na którym trzymam stronę. Wysyłanie XHTML z deklaracją MIME text/html jest nieoptymalne (choć jest dozwolone); nowoczesne przeglądarki potraktują taki dokument jako nieco błędny HTML, a nie jako XHTML. Trzeci to brak możliwości konfiguracji serwera i brak obsługi skryptów server side, przez co niemożliwe jest uruchomienie mechanizmu rozpoznającego przeglądarkę i podającego strony w formacie zrozumiałym dla niej (XHTML dla nowoczesnych przeglądarek z deklaracją MIME application/xhtml+xml, a HTML dla starszych, przestarzałych technicznie – w tym IE starszych od wersji 8 – i nierozpoznanych z deklaracją MIME text/html). Dzięki pełnej zgodności z wersją HTML 4.01 Strict i stosowaniu kaskadowych arkuszy stylów (CSS) kod jest zresztą prawie zgodny z XHTML 1.1, zaś style są zgodne z CSS 2.1. Czwarty powód to kontrowersyjny kierunek rozwoju XHTML w tamtym czasie (brak kompatybilności rozwijanej wówczas XHTML 2.0 z poprzednimi wersjami – obecnie na szczęście o XHTML 2 prawie nikt nie pamięta) i powrót do rozwoju następnej wersji HTML równolegle z rozwijaniem jeszcze następnej wersji XHTML, oznaczonych numerem wersji 5 i kompatybilnych z poprzednimi wersjami, przez Konsorcjum W3C i grupę WHATWG . Od grudnia 2008 strony są stopniowo konwertowane do większej zgodności z wybranymi wymaganiami HTML5, zachowując jednocześnie pełną zgodność z HTML 4.01 Strict, przede wszystkim polega to na przemieszczeniu deklaracji charsetu na sam początek sekcji <head> i eliminacji znaczników <tt> i <strong> na rzecz <em> z odpowiednim ostylowaniem. Pełna konwersja do HTML5 nie jest przewidziana z powodu zaprzestania aktualizacji.
Pyt: Co takiego ciekawego jest w tych ogonkach? Odp: Jak się poszuka, to się znajdzie…
Na przykład identycznie albo bardzo podobnie wyglądające znaki mogą mieć różne oznaczenia (i różne znaczenia). Tak jest w przypadku greckiej litery mi, która jako mała litera greckiego alfabetu jest oznaczona μ albo μ (μ), a jako przedrostek mikro – µ albo µ (µ). Podobnie jest z literą omega, która jako wielka litera grecka nosi oznaczenie Ω albo Ω (Ω), a jako symbol oma – Ω (Ω), wielka litera sigma jako litera jest oznaczona jako Σ lub Σ (Σ), a jako symbol sumy – ∑ albo ∑ (∑), wielka litera pi – jako litera &Pi albo Π (Π), a jako iloczyn – ∏ albo ∏ (∏), tak samo istnieje podobnie wyglądajacy znak na oznaczenie zbioru pustego – ∅ lub ∅ (∅) – i średnicy – ⌀ (⌀), do tego istnieje litera przekreślone o: wielka to Ø albo Ø, a mała to ø albo ø (Ø, ø). Wbrew pozorom grecka litera fi wcale nie jest podobna do tych symboli (Φ, φ). Stosowanie właściwych symboli (mimo ich identycznego wyglądu) jest istotne z dwóch powodów: pierwszy to transliteracja, którą wykonują niektóre agenty użytkownika, gdy nie mogą wyświetlić danego znaku. Gdy np. wyświetlenie wielkiej omegi będzie niemożliwe, program z obsługą transliteracji wyświetli odpowiednio Omega, jeżeli w tekście znak ten będzie użyty w funkcji greckiej litery, lub Ohm, jeżeli będzie użyty w funkcji jednostki rezystancji. Drugi powód to urządzenia czytające na głos, wykorzystywane przez niewidomych. W analogiczny sposób czytacz poprawnie przeczyta omegę jako długie o, jeżeli będzie to grecka litera w greckim tekście, jako omega, jako om, jeżeli będzie to jednostka rezystancji, albo jako omega – w innych wypadkach. Zbliżone zjawisko występuje z niektórymi literami łacińskimi i cyrylicy oraz (prawie wyłącznie wielkimi) greckimi: a/а/-, c/с/-, e/е/-, i/і/-, j/ј/-, o/о/ο, p/р/-, s/ѕ/-, x/х/-, y/(у lub ү)/-, A/А/Α, B/В/Β, C/С/-, E/Е/Ε, F/Ғ/-, H/Н/Η, I/І/Ι, J/Ј/-, K/К/Κ, M/М/Μ, N/-/Ν, O/О/Ο, P/Р/Ρ, S/Ѕ/-, T/Т/Τ, X/Х/Χ, Y/(У lub Ү)/Υ, Z/-/Ζ. Podobieństwo występuje też między grecką wielką literą gamma i G w cyrylicy: Γ/Г, cyfry 3 i wielkiej litery Z w cyrylicy: 3/З. Ciekawostką jest też istnienie w języku greckim litery omikron z akcentem (tonos), która – jako mała – wygląda jak o z kreską: ó/ό, Kolejny przykład podobieństwa to litery e oraz i z umlautem występujące w zestawie liter łacińskich ze znakami diakrytycznymi oraz cyrylicy: Ë/Ё, ë/ё, Ï/Ї, ï/ї. Dla człowieka to jedna i ta sama litera, dla komputera już nie, można te podobieństwa (zwłaszcza podobieństwa do liter łacińskich) wykorzystać również do zmylenia kogoś w internecie np. przesyłając mu maila z normalnie wyglądającym linkiem do jego banku, ktoś wejdzie, zaloguje się itd. i nie zauważy, że w adresie było np. a nie łacińskie, lecz cyrylicowe, a to zupełnie inna domena, i w tej innej domenie oszuści założyli stronę wyglądającą identycznie, jak strona tego banku, i uzyskali dostęp do loginu i hasła jednego jelenia. Ktoś inny z kolei może użyć tych podobieństw, by uniemożliwić znalezienie swojej strony w internecie. Wiele innych znaków również występuje w identycznej lub bardzo podobnej formie graficznej, ale pełniących różne funkcje, przykłady to trzy różne ukośniki: zwykły, znak dzielenia (alternatywa dla dwukropka i poziomej kreski ułamkowej; ∕) i kreska ułamkowa (⁄ albo ⁄), czyli / ∕ ⁄. Tu warto nadmienić, że niektóre źródła utrzymują, że z punktu widzenia typografii znak dzielenia powinien być klasyfikowany jako kreska ułamkowa i na odwrót. Kolejne to prosty cudzysłów i apostrof ASCII, cudzysłowy apostrofowe (pojedynczy górny prawy: ’ lub ’ pojedynczy dolny: ‚ lub ‚, podwójny górny prawy: ” lub ”), apostrof jako znak diakrytczny (&700;) i znaki minuty (′ albo ′) i sekundy kątowej (″ albo ″), a jednocześnie stopy i cala, umlaut (¨ albo ¨), kreska (´ albo ´) i podwójny akcent używany w języku węgierskim (˝), oraz przecinek, ogonek (˛) i haczyk (cedilla; ¸ albo ¸): ' ’ ʼ ′; " ” ″ ¨ ˝; , ‚ ˛ ¸. Kreseczki: zwykły dywiz ASCII, dywiz (‐), twardy dywiz (‑), minus (− lub −), półpauza (– lub –), dywiz o szerokości cyfry (inaczej kreska liczbowa, ‒), pauza (— albo —), a także dywiz miękki (warunkowy, ­ lub ­), którego nie ma możliwości pokazać: - ‐ ‑ − – ‒ —. Tych znaków jest jeszcze więcej.
Coś innego: litery z diakrytykami (np. o z kreską, czyli ó) można również składać z litery łacińskiej i znaku diakrytycznego. W unikodzie istnieją osobne znaki diakrytyczne, które później aplikacja wyświetlająca składa z poprzedzającymi je literami łacińskimi. Problem w tym, że o ile akcent (czyli kreska, ́) jest dość powszechny w czcionkach unikodowych, to kropka (ta nad ż, ̇) i ogonek (ten pod ą i ę, ̨) są dostępne tylko w niewielkiej ilości czcionek. Ukośnej kreski tworzącej ł w ogóle nie ma w zestawie unikodu. Oto mała demonstracja: ć, ń, ó, ś, ź; ż; ą, ę. Następne: niektórzy piszą literę ż nie z kropką, ale z poziomą kreseczką przez środek litery. Okazuje się, że i taki znak istnieje w unikodzie, ma oznaczenie ƶ i wygląda tak: ƶ (i można go złożyć z użyciem znaku ̵: z̵). Efekty wizualne niestety będą różne, w zależności od użytej przeglądarki i zainstalowanych czcionek, u mnie przykłady wyglądają poprawnie w przeglądarkach Firefox i Opera, w systemie mam zainstalowane m.in. czcionki Lucida Sans Unicode i Tahoma. Tu uwaga: znaki składane ani z z kreską w miejsce ż nie mogą być stosowane w tekstach, które potem są przetwarzane elektronicznie, bo np. wyszukiwanie nie zadziała (o ile procesor nie będzie miał w tablicy odpowiednich mapowań, a raczej żaden obecnie stosowany nie ma i nie ma powodu, by to się zmieniło), a po drugie znak z z poziomą kreską istnieje tylko w bardzo niewielu czcionkach. Ewentualnie zastosowanie w dokumentach elektronicznych znaków składanych w miejsce znaków gotowych nie ma sensu, gdyż nic nie daje w porównaniu ze stosowaniem znaków gotowych, a stosowanie z z poziomą kreską jako alternatywy dla ż powinno być ograniczone do tekstów przeznaczonych do wydruku, składanych czcionką naśladującą pismo odręczne (ale nie znam czcionek o takim kroju, które zawierałyby ten znak; jedyne znane mi czcionki to Lucida Sans Unicode i Fixedsys Excelsior 3.01).
Inna ciekawostka: w Unikodzie mała litera o z kropką pod spodem znajduje się na pozycji U+1ECD i może być zakodowana jako ọ. Znak ten nie jest obecny we wszystkich czcionkach, ale popularność Ayọ ma szansę to zmienić.
Jeszcze jedna ciekawostka: istnieje co najmniej 25 różnych sposobów kodowania polskich liter, z czego większość jest już martwa (a niektóre nigdy nie były używane w Polsce). Pierwszy szerzej znany i stosowany system kodowania to norma BN-74/3101-01 oparta na normie ISO/IEC 646, w tym kodowaniu istniały tylko małe polskie litery.
Inna ciekawostka: zainstaluj sobie czcionkę Fixedsys Excelsior 3.01 i obejrzyj znaki o numerach E188, E189, E1CE, E1CF, E1E1, E200 i E201. W szczególności trzeci i czwarty znaczek z tych wymienionych dedykuję wszystkim tym, którzy ideologicznie są przeciwni polskim literom w internecie i psują je na każdy możliwy sposób albo „wiedzą lepiej”, że skoro osruk ma takie ustawienie fabryczne, to tak jest dobrze i wszyscy inni mają się dostosować, i mimo wielu próśb uparcie, jak osły, nie poprawiają konfiguracji.
Pyt: Co lepsze: liczne kodowania 8-bitowe (rodziny ISO 8859) czy UTF-8? Odp: Zależy od konkretnych zastosowań. Nie da się ukryć, że z jednej strony standaryzacja kodowań ma same zalety dla obiegu i wymiany dokumentów elektronicznych i tak, jak wybranie US-ASCII jako jedynego charsetu dla cyfr, liter łacińskich i części interpunkcji ma same zalety, tak samo można oczekiwać, że wprowadzenie UTF-8 dla wszystkich znaków narodowych też będzie miało te same zalety. Z drugiej strony UTF-8 powoduje zwykle przyrost objętości dokumentów, jeszcze nie jest obsługiwany przez wszystkie aplikacje (choć ich ilość bardzo szybko się zmniejsza i dla większości istnieją alternatywy z obsługą unikodu), no i w polskim internecie istnieje pewien opór przed przejściem na unikod, przynajmniej częściowo „dzięki” jednemu chuliganowi internetowemu, który bardzo się narzucał innym z unikodem w czasach, gdy udział aplikacji z jego obsługą był niewielki.
Pyt: Czy mogę umieścić link do tej strony na mojej stronie albo w moim podpisie? Odp: Tak, oczywiście.