The Wiert Corner – irregular stream of stuff

Jeroen W. Pluimers on .NET, C#, Delphi, databases, and personal interests

  • My badges

  • Twitter Updates

  • My Flickr Stream

  • Pages

  • All categories

  • Enter your email address to subscribe to this blog and receive notifications of new posts by email.

    Join 2,466 other followers

Archive for the ‘Mojibake’ Category

I’ve given up on entering non-ASCII characters when entering data on-line

Posted by jpluimers on 2019/06/17

I live in a street that has a non-ASCII character in it: Pyreneeën.

I’ve reverted back to entering the street name as plain ASCII for a simple reason:

Too often the ë gets mangled into encoding gibberish, similar to the é example in [WayBackWhen Good Characters Go Bad: A Guide to Diagnosing Character Display Problems as these characters are very near both in UTF-8 and in the [WayBackUnicode Characters in the Latin-1 Supplement Block:

I’ve seen these encodings, where only the top encoding is correct; the degeneration gets worse moving downwards, a classic Mojibake:

# encoded UTF-8 (hex.)
0 ë 0xC3 0xAB
1 ë 0xC3 0x83 0xC2 0xAB
2 ë 0xC3 0x83 0xC2 0x83 0xC3 0x82 0xC2 0xAB
3 ë 0xC3 0x83 0xC2 0x83 0xC3 0x82 0xC2 0x83 0xC3 0x83 0xC2 0x82 0xC3 0x82 0xC2 0xAB
4 ë 0xC3 0x83 0xC2 0x83 0xC3 0x82 0xC2 0x83 0xC3 0x83 0xC2 0x82 0xC3 0x82 0xC2 0x83 0xC3 0x83 0xC2 0x83 0xC3 0x82 0xC2 0x82 0xC3 0x83 0xC2 0x82 0xC3 0x82 0xC2 0xAB
5 ë 0x26 0x65 0x75 0x6d 0x6c 0x3b

The last one seldomly happens, the first one relatively often, just like [Archive.is] fd.nl did a while on their finanancial pages.

These mistakes become sort of understandable (but not forgivable) when you look at the below table-fragment (the full table is at[WayBack] Unicode/UTF-8-character table – starting from code position 0080).

Read the rest of this entry »

Posted in Development, Encoding, Mojibake, Power User, Software Development, Unicode, Web Browsers | Leave a Comment »

Encoding is hard… so how did the single quote become a circumflexed a followed by Euro sign and trade mark?

Posted by jpluimers on 2016/10/04

A while ago (in fact more than a year), I posted Encoding is hard…  go G+ with the below picture.

[Wayback] ftfy (“fixes text for you”, a parody on “fixed that for you”) [Wayback] fixes it, but:

How did the single quote become “’“?

Actually, because of a a common “beautification” of many Office suites (Microsoft and Open alike), the single quote was a special one: a Unicode Character ‘RIGHT SINGLE QUOTATION MARK’ (U+2019) which in UTF-8 is encoded as 0xE2 0x80 0x99.

Read the rest of this entry »

Posted in Development, Encoding, ftfy, ISO-8859, ISO8859, Mojibake, Software Development, Unicode, UTF-8, UTF8, Windows-1252 | Leave a Comment »

installing the UTF-8 encoding ftfy (fixes text for you) – via version 3.0 | Luminoso Blog

Posted by jpluimers on 2016/09/06

Simple if you know it:

pip install ftfy

That installs it as a command which is a lot easier than using it from Github at [Waybackhttps://github.com/LuminosoInsight/python-ftfy

It knows how to solve the encoding issues in [Archive.is]  the future of publishing at W3C explaining about WTF-8 and Unicode history.

It didn’t solve my non-Unicode encoding issue: [Wayback] “v3/43/4r” -> “v¾¾r” -> “vóór”.

That was caused by an infamous Western Latin character set confusion issue, in this case ISO-8859/Windows- versus CP850/CP858 encoding issue (so: no Unicode involved at all, nor CP437 as it doesn’t have ¾).

So [Wayback] I put in a suggestion for ftfy to support finding the above.

–jeroen

via

PS: these manglings are called Mojibake

Posted in Development, Encoding, ftfy, Mojibake, Software Development, Unicode, UTF-8, UTF8 | 4 Comments »

[NL] encoding blijft moeilijk, waarom toch? (dit keer in een brief van @xs4all)

Posted by jpluimers on 2015/02/24

Hoe moeilijk kan het toch zijn om je encoding goed te doen.

Deze keer uit een brief van xs4all:

encoding foutje...

encoding foutje…

Als je een trema in een brief zet, dan controleer je toch even dat die ook goed op de brief wordt afgedrukt?

Een “inverted question mark” (deze keer samen met een oe ligature) duidt vrijwel altijd op een encoding probleem: een mooie Mojibake.

Ook bij de bevestigings email ging het mis:

bij de beï¿œindiging van uw oude abonnement.

En jawel hoor: de encoding daar was geen UTF-8:

Content-Type: text/plain; charset=iso-8859-15
Content-Transfer-Encoding: 8bit

Even een korte inspectie om te zien of het een simpele UTF-8 naar ISO-8859-15 conversie fout betreft: nee.

karakter iso-8859-15
hex
utf-8
hex
Unicode
hex
Unicode
naam
Unicode block
ï 0xCF 0xC3 0xAF U+00EF LATIN SMALL LETTER I WITH DIAERESIS Latin-1 Supplement
¿ 0xBF 0xC2 0xBF U+00BF INVERTED QUESTION MARK Latin-1 Supplement
œ 0xBD 0xC5 0x93 U+0153 LATIN SMALL LIGATURE OE Latin Extended-A

Ik hoop dat een xs4all techneut hier voldoende aan heeft (:

–jeroen

Posted in Development, Encoding, ISO-8859, Mojibake, Software Development, Unicode, UTF-8, UTF8 | Leave a Comment »

Foute foutmelding @heldenvannu (inschrijving: Pakketten | HELDEN VAN . NU)

Posted by jpluimers on 2013/03/29

Als je postcode “1060 NP” invult bij aansluiting en “1170 AB” bij facturatie, dan krijg je deze onterechte foutmeldingen:

  • Organisatie postcode is ongeldig
  • Facturatie gegevens postcode is ongeldig

Beetje vreemd, want al sinds de introductie van postcodes in Nederland in 1978 zit in een postcode 1 spatie, en tussen de postcode en de woonplaats 2 spaties.

Ook trema‘s gaan mis: bij postcode 1060 NP hoort de straat Pyreneeën in Amsterdam, maar bij Heldenvan.nu wordt het deze Mojibake:

Pyreneeu00ebn
1060NP Amsterdam

Toch is deze meta-tag in de web-pagina aanwezig, en UTF-8 encoding ondersteunt het gebruik van trema’s volledig.
Waar gaat dit fout? En waarom?

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Het eerste stuk in de html gaat fout:

<th>Aansluitadres:</th>
                            <td>
                                Pyreneeu00ebn 71 <wp-br />
                                1060NP Amsterdam
                            </td>

Verderop in de html gaat het met de trema’s trouwens wel goed:

 <td colspan="0">
        Pyreneeën 71 <br />
        1060NP Amsterdam<br />
        Nederland
    </td>

–jeroen

via: Pakketten | HELDEN VAN . NU en bestel.heldenvan.nu/bevestiging.

Posted in Development, Encoding, Mojibake, Opinions, Power User, Software Development, Unicode | Leave a Comment »

 
%d bloggers like this: