lokale html-Seiten, Textkodierung, Unicode <=> Automatisch


  • mit einer bookmarks.html entfernt <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
    (Konvertiere zu UTF-8) , speichern funktioniert es einwandfrei. Ohne Konvertieren = Lesezeichen-Menü


    Ich verstehe das jetzt nicht.
    Ich verwende nur OmegaT, das die Text.html aus dm Verzeichnis \source\ liest und die (übersetzten) Text.html in einem weiteren Verzeichnis \target\ speichert. Jetzt lade ich die Text.html aus \target\ in FF - das ist alles.

    Notepad++ ist da nicht involviert. Erst als ich überprüfen wollte, ob auch er, ...
    Im Notepad++ habe ich nichts bearbeitet, geändert oder gar gespeichert!

    Ceterum censeo fenestras X non esse ad rem accommodatas

  • Dein Programm muss aber den Text in utf-8 speichern. Es geht dabei nicht um das Datei-Format.

    Chromebook Lenovo IdeaPad Flex 5 - chromeOS 122 (Stable Channel) - Linux Debian Bookworm: Firefox ESR 115.8.0 und Firefox Nightly, Beta und Main Release (Mozilla PPA), Android 13: Firefox Nightly und Firefox (Main Release)

    Smartphone - Firefox Main Release, Firefox Nightly, Firefox Klar (Main Release)


  • Ich verstehe das jetzt nicht.
    Ich verwende nur OmegaT, das die Text.html aus dm Verzeichnis \source\ liest und die (übersetzten) Text.html in einem weiteren Verzeichnis \target\ speichert. Jetzt lade ich die Text.html aus \target\ in FF - das ist alles.

    Notepad++ ist da nicht involviert. Erst als ich überprüfen wollte, ob auch er, ...
    Im Notepad++ habe ich nichts bearbeitet, geändert oder gar gespeichert!


    Das ist doch genau das Problem, das auf der von der_nachdenklicher verlinkten Seite beschrieben ist:

    Zitat

    Plain text files - in most cases files with a txt extension - contain just textual information and offer no clearly defined way to inform the computer which language they contain. The most that OmegaT can do in such a case, is to assume that the text is written in the same language the computer itself uses. This is no problem for files encoded in Unicode using a 16 bit character encoding set. If the text is encoded in 8 bits, however, one can be faced with the following awkward situation: instead of displaying the text, for Japanese characters...


    Dein Omega liest das HTML ein, speichert aber anscheinend mit dem falschen Zeichensatz ab, wodurch es dann im Browser zur Fehlanzeige kommt. der_nachdenklicher hat dir nur einen Weg aufgezeigt, wie du diesen Fehler berichtigen kannst. :)

    Windows 10 | FF 62.0 (64-Bit) / FF 61.0 (64-Bit) / FF 63.0 (64-Bit)


  • Dein Programm muss aber den Text in utf-8 speichern. Es geht dabei nicht um das Datei-Format.


    Naja, Notpad++ sagt mir, dass es in UTF-8 gespeichert wurde, allein, FF erkennt das nicht, oder - wegen fehlender Info - nimmt ein falsches Format an, und nicht einmal das, was man heutzutage verwenden sollte (ich wiederhole mich)

    Ceterum censeo fenestras X non esse ad rem accommodatas

    Einmal editiert, zuletzt von hhmmppff (14. Januar 2018 um 15:16)

  • Also die Textcodierung wird mir als "windows-1252" angezeigt bei den Seiteninfomationen.

    Chromebook Lenovo IdeaPad Flex 5 - chromeOS 122 (Stable Channel) - Linux Debian Bookworm: Firefox ESR 115.8.0 und Firefox Nightly, Beta und Main Release (Mozilla PPA), Android 13: Firefox Nightly und Firefox (Main Release)

    Smartphone - Firefox Main Release, Firefox Nightly, Firefox Klar (Main Release)


  • Bitte ..


    Und da haben wir auch schon das Problem. Das ist keine vollständige - und somit valide - HTML-Datei.
    Der Anfang des Quellcodes schaut bei der Datei so aus:

    Code
    <title>MetaTrader 5 Handelsplattform für Devisen, Aktien, Futures, CFDs</title>
    <header_title>MetaTrader 5 - eine leistungsstarke Multi-Asset-Plattform</header_title> <header_subtitle>Erfolgreiches Handeln an den Finanzmärkten beginnt mit einer komfortablen und multifunktionalen Handelsplattform. MetaTrader 5 ist die beste Wahl für den modernen Händler</header_subtitle>
    [...]

    Eine gültige HTML-Datei beginnt aber immer so:

    HTML
    <!DOCTYPE html>
    <html dir="ltr" lang="de">
    <head>
    	<title>FFC</title>
    	<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    	[...]

    Da braucht man sich also nicht wundern, wenn die Seite nicht korrekt von einem Browser interpretiert werden kann.
    Warum dieses Omega keine vollständige HTML-Datei abspeichert, kann ich dir allerdings nicht sagen.
    Schaut die HTML-Datei, die von Omega eingelesen wird, evtl. schon so aus?

    Windows 10 | FF 62.0 (64-Bit) / FF 61.0 (64-Bit) / FF 63.0 (64-Bit)

  • Zitat

    Warum dieses Omega keine vollständige HTML-Datei abspeichert, kann ich dir allerdings nicht sagen.
    Schaut die HTML-Datei, die von Omega eingelesen wird, evtl. schon so aus?


    Die zu übersetzende Datei: Jupp!

    Aber dann könnte FF doch Unicode als Standard wählen - wenn es Notepad++ kann?

    Ceterum censeo fenestras X non esse ad rem accommodatas

    Einmal editiert, zuletzt von hhmmppff (14. Januar 2018 um 15:49)

  • Firefox ist einfach strenger in der Auswahl bzw. der Einhaltung der Spezifikationen. Andererseits muss Firefox ja von was ausgehen, wenn nix angegeben ist. So hat man sich (dieProgrammierer des FX) ggf. so, wie erlebt, festgelegt.

    Chromebook Lenovo IdeaPad Flex 5 - chromeOS 122 (Stable Channel) - Linux Debian Bookworm: Firefox ESR 115.8.0 und Firefox Nightly, Beta und Main Release (Mozilla PPA), Android 13: Firefox Nightly und Firefox (Main Release)

    Smartphone - Firefox Main Release, Firefox Nightly, Firefox Klar (Main Release)


  • Die zu übersetzende Datei: Jupp!

    Aber dann könnte FF doch dann Unicode als Standard wählen - wenn es Notepad++ kann?


    Bei Notepad ist das der Default-Wert. Dort ist es auch utf-8, wenn du eine neue leere Datei anlegst.
    Ein Browser ist eben kein Text-Editor und die Meta-Angabe zum charset in einer HTML-Datei existiert ja nicht zum Spass.
    Falls diese Angabe fehlt, setzt der FF also standardmässig - wie von Angel bereits bemerkt - windows-1252 ein.
    Ob man das irgendwo ändern kann, weiss ich nicht.
    Alternativ kannst du Chrome oder Opera benutzen. Dort wird zumindest die Beispiel-Datei soweit korrekt angezeigt.
    Sollte die übersetzte HTML-Datei allerdings wieder auf einer Webseite eingearbeitet werden, besteht das Problem weiterhin, weil es kein valides HTML ist.

    Windows 10 | FF 62.0 (64-Bit) / FF 61.0 (64-Bit) / FF 63.0 (64-Bit)

  • Ok - vielen Dank, vielleicht ändert sich das ja mal im FF.
    Aber ich werde das auch bei der Übergabe der Übersetzung erwähnen!

    Ceterum censeo fenestras X non esse ad rem accommodatas


  • Ok - vielen Dank, vielleicht ändert sich das ja mal im FF.
    Aber ich werde das auch bei der Übergabe der Übersetzung erwähnen!


    Eine weitere Alternative wäre das Umstellen der Textkodierung:
    Ansicht > Textkodierung > Automatisch bestimmen > Japanisch
    Klingt komisch, stellt aber auf Unicode um.
    Aber wie gesagt: das macht aus der Datei selbst kein valides HTML.

    Windows 10 | FF 62.0 (64-Bit) / FF 61.0 (64-Bit) / FF 63.0 (64-Bit)

  • Ich habe keine Ahnung von OmegaT. Aber wenn ich die Dokumentation richtig verstehe, müssen die zu übersetzenden Dateien bereits beim Einlesen aufbereitet sein.

    File Formats

    OmegaT kann sowohl mit Reintext als auch mit formatiertem Text (also auch mit HTML-Text) umgehen. Die eingelesene Datei sollte also bereits eine HTML-Datei sein. Wenn also die zu übersetzende Datei keine konforme HTML-Datei ist, wird es wohl zu Problemen kommen. In einer korrekten HTML sollte auch der von mir erwähnte Meta-Tag mit der Zeichensatzkodierung vorkommen.

    Ich kann natürlich falsch liegen, wie gesagt, ich habe von OmegaT keine Ahnung.

    Übersetzer für Obersorbisch und Niedersorbisch auf pontoon.mozilla.org u.a. für Firefox, Firefox für Android, Firefox für iOS, Firefox Klar/Focus für iOS und Android, Thunderbird, Pootle, Django, LibreOffice, LibreOffice Onlinehilfe, WordPress


  • Eine weitere Alternative wäre das Umstellen der Textkodierung:
    Ansicht > Textkodierung > Automatisch bestimmen > Japanisch
    Klingt komisch, stellt aber auf Unicode um.
    Aber wie gesagt: das macht aus der Datei selbst kein valides HTML.


    Tatsächlich, mit fernöstlicher Hilfe :)
    Wie heißt das noch einmal in Deutsch, von hinten durch die Brust ins Auge?

    Ceterum censeo fenestras X non esse ad rem accommodatas

  • Wenn du ohne Brustpfeil arbeiten möchtest, wäre ein Kontakt zu den Machern der verwendeten Software ggf. zielführend... vielleicht wissen die gar nicht, das ihr Produkt "fehlerhaft" arbeitet..
    oder aber du musst an deiner Arbeitsweise was ändern und, wie von milupo erwähnt, die zu bearbeitenden Dateien entsprechend aufbereiten..


    Hat vielleicht was mit den Einstellungen oder der Ausgabe der Dateien durch das mir nicht bekannten Programms zu tun?


    Wie vermutet also kein Firefoxfehler.. :)


  • Wenn du ohne Brustpfeil arbeiten möchtest, wäre ein Kontakt zu den Machern..


    gemacht - mal sehen.


    Hat vielleicht was mit den Einstellungen oder der Ausgabe der Dateien durch das mir nicht bekannten Programms zu tun?


    Nein, wohl nicht, es verhält sich 'neutral'.


    Wie vermutet also kein Firefoxfehler.. :)


    hmm - intelligente System können mit fehlerhaften Quellen umgehen, die FF-Konkurrenten können das ja auch!

    Ceterum censeo fenestras X non esse ad rem accommodatas