lokale html-Seiten, Textkodierung, Unicode <=> Automatisch

hhmmppff

Zitat von der_nachdenklicher

mit einer bookmarks.html entfernt <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
(Konvertiere zu UTF-8) , speichern funktioniert es einwandfrei. Ohne Konvertieren = Lesezeichen-MenÃ¼

Ich verstehe das jetzt nicht.
Ich verwende nur OmegaT, das die Text.html aus dm Verzeichnis \source\ liest und die (übersetzten) Text.html in einem weiteren Verzeichnis \target\ speichert. Jetzt lade ich die Text.html aus \target\ in FF - das ist alles.

Notepad++ ist da nicht involviert. Erst als ich überprüfen wollte, ob auch er, ...
Im Notepad++ habe ich nichts bearbeitet, geändert oder gar gespeichert!

AngelOfDarkness

Dein Programm muss aber den Text in utf-8 speichern. Es geht dabei nicht um das Datei-Format.

EffPeh

Zitat von hhmmppff

Ich verstehe das jetzt nicht.
Ich verwende nur OmegaT, das die Text.html aus dm Verzeichnis \source\ liest und die (übersetzten) Text.html in einem weiteren Verzeichnis \target\ speichert. Jetzt lade ich die Text.html aus \target\ in FF - das ist alles.
Notepad++ ist da nicht involviert. Erst als ich überprüfen wollte, ob auch er, ...
Im Notepad++ habe ich nichts bearbeitet, geändert oder gar gespeichert!

Das ist doch genau das Problem, das auf der von der_nachdenklicher verlinkten Seite beschrieben ist:

Zitat

Plain text files - in most cases files with a txt extension - contain just textual information and offer no clearly defined way to inform the computer which language they contain. The most that OmegaT can do in such a case, is to assume that the text is written in the same language the computer itself uses. This is no problem for files encoded in Unicode using a 16 bit character encoding set. If the text is encoded in 8 bits, however, one can be faced with the following awkward situation: instead of displaying the text, for Japanese characters...

Dein Omega liest das HTML ein, speichert aber anscheinend mit dem falschen Zeichensatz ab, wodurch es dann im Browser zur Fehlanzeige kommt. der_nachdenklicher hat dir nur einen Weg aufgezeigt, wie du diesen Fehler berichtigen kannst.

hhmmppff

Zitat von AngelOfDarkness

Dein Programm muss aber den Text in utf-8 speichern. Es geht dabei nicht um das Datei-Format.

Naja, Notpad++ sagt mir, dass es in UTF-8 gespeichert wurde, allein, FF erkennt das nicht, oder - wegen fehlender Info - nimmt ein falsches Format an, und nicht einmal das, was man heutzutage verwenden sollte (ich wiederhole mich)

EffPeh

Lade doch bitte mal irgendwo so eine von Omega bearbeitete HTML-Datei hoch.

hhmmppff

Zitat von EffPeh

Lade doch bitte mal irgendwo so eine von Omega bearbeitete HTML-Datei hoch.

Bitte ..

AngelOfDarkness

Also die Textcodierung wird mir als "windows-1252" angezeigt bei den Seiteninfomationen.

EffPeh

Zitat von hhmmppff

Bitte ..

Und da haben wir auch schon das Problem. Das ist keine vollständige - und somit valide - HTML-Datei.
Der Anfang des Quellcodes schaut bei der Datei so aus:

Code

<title>MetaTrader 5 Handelsplattform für Devisen, Aktien, Futures, CFDs</title>
<header_title>MetaTrader 5 - eine leistungsstarke Multi-Asset-Plattform</header_title> <header_subtitle>Erfolgreiches Handeln an den Finanzmärkten beginnt mit einer komfortablen und multifunktionalen Handelsplattform. MetaTrader 5 ist die beste Wahl für den modernen Händler</header_subtitle>
[...]

Eine gültige HTML-Datei beginnt aber immer so:

HTML

<!DOCTYPE html>
<html dir="ltr" lang="de">
<head>
	<title>FFC</title>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
	[...]

Da braucht man sich also nicht wundern, wenn die Seite nicht korrekt von einem Browser interpretiert werden kann.
Warum dieses Omega keine vollständige HTML-Datei abspeichert, kann ich dir allerdings nicht sagen.
Schaut die HTML-Datei, die von Omega eingelesen wird, evtl. schon so aus?

hhmmppff

Zitat von AngelOfDarkness

Also die Textcodierung wird mir als "windows-1252" angezeigt bei den Seiteninfomationen.

Und warum liest Notepad++ das als UTF-8 ein?

hhmmppff

Zitat

Warum dieses Omega keine vollständige HTML-Datei abspeichert, kann ich dir allerdings nicht sagen.
Schaut die HTML-Datei, die von Omega eingelesen wird, evtl. schon so aus?

Die zu übersetzende Datei: Jupp!

Aber dann könnte FF doch Unicode als Standard wählen - wenn es Notepad++ kann?

AngelOfDarkness

Firefox ist einfach strenger in der Auswahl bzw. der Einhaltung der Spezifikationen. Andererseits muss Firefox ja von was ausgehen, wenn nix angegeben ist. So hat man sich (dieProgrammierer des FX) ggf. so, wie erlebt, festgelegt.

EffPeh

Zitat von hhmmppff

Die zu übersetzende Datei: Jupp!
Aber dann könnte FF doch dann Unicode als Standard wählen - wenn es Notepad++ kann?

Bei Notepad ist das der Default-Wert. Dort ist es auch utf-8, wenn du eine neue leere Datei anlegst.
Ein Browser ist eben kein Text-Editor und die Meta-Angabe zum charset in einer HTML-Datei existiert ja nicht zum Spass.
Falls diese Angabe fehlt, setzt der FF also standardmässig - wie von Angel bereits bemerkt - windows-1252 ein.
Ob man das irgendwo ändern kann, weiss ich nicht.
Alternativ kannst du Chrome oder Opera benutzen. Dort wird zumindest die Beispiel-Datei soweit korrekt angezeigt.
Sollte die übersetzte HTML-Datei allerdings wieder auf einer Webseite eingearbeitet werden, besteht das Problem weiterhin, weil es kein valides HTML ist.

hhmmppff

Ok - vielen Dank, vielleicht ändert sich das ja mal im FF.
Aber ich werde das auch bei der Übergabe der Übersetzung erwähnen!

Sören Hentzschel

Unwahrscheinlich, dass sich da was in Firefox ändern wird. Siehe Blick in die Spezifikation:
https://html.spec.whatwg.org/multipage/pars…racter-encoding

Wie man der Tabelle entnehmen kann, ist windows-1252 der empfohlene Fallback für deutschsprachige Inhalte.

EffPeh

Zitat von hhmmppff

Ok - vielen Dank, vielleicht ändert sich das ja mal im FF.
Aber ich werde das auch bei der Übergabe der Übersetzung erwähnen!

Eine weitere Alternative wäre das Umstellen der Textkodierung:
Ansicht > Textkodierung > Automatisch bestimmen > Japanisch
Klingt komisch, stellt aber auf Unicode um.
Aber wie gesagt: das macht aus der Datei selbst kein valides HTML.

milupo

Ich habe keine Ahnung von OmegaT. Aber wenn ich die Dokumentation richtig verstehe, müssen die zu übersetzenden Dateien bereits beim Einlesen aufbereitet sein.

File Formats

OmegaT kann sowohl mit Reintext als auch mit formatiertem Text (also auch mit HTML-Text) umgehen. Die eingelesene Datei sollte also bereits eine HTML-Datei sein. Wenn also die zu übersetzende Datei keine konforme HTML-Datei ist, wird es wohl zu Problemen kommen. In einer korrekten HTML sollte auch der von mir erwähnte Meta-Tag mit der Zeichensatzkodierung vorkommen.

Ich kann natürlich falsch liegen, wie gesagt, ich habe von OmegaT keine Ahnung.

hhmmppff

Zitat von EffPeh

Eine weitere Alternative wäre das Umstellen der Textkodierung:
Ansicht > Textkodierung > Automatisch bestimmen > Japanisch
Klingt komisch, stellt aber auf Unicode um.
Aber wie gesagt: das macht aus der Datei selbst kein valides HTML.

Tatsächlich, mit fernöstlicher Hilfe
Wie heißt das noch einmal in Deutsch, von hinten durch die Brust ins Auge?

Boersenfeger

Wenn du ohne Brustpfeil arbeiten möchtest, wäre ein Kontakt zu den Machern der verwendeten Software ggf. zielführend... vielleicht wissen die gar nicht, das ihr Produkt "fehlerhaft" arbeitet..
oder aber du musst an deiner Arbeitsweise was ändern und, wie von milupo erwähnt, die zu bearbeitenden Dateien entsprechend aufbereiten..

Zitat von Boersenfeger

Hat vielleicht was mit den Einstellungen oder der Ausgabe der Dateien durch das mir nicht bekannten Programms zu tun?

Wie vermutet also kein Firefoxfehler..

hhmmppff

Zitat von Boersenfeger

Wenn du ohne Brustpfeil arbeiten möchtest, wäre ein Kontakt zu den Machern..

gemacht - mal sehen.

Zitat von Boersenfeger

Hat vielleicht was mit den Einstellungen oder der Ausgabe der Dateien durch das mir nicht bekannten Programms zu tun?

Nein, wohl nicht, es verhält sich 'neutral'.

Zitat von Boersenfeger

Wie vermutet also kein Firefoxfehler..

hmm - intelligente System können mit fehlerhaften Quellen umgehen, die FF-Konkurrenten können das ja auch!

Sören Hentzschel

Wenn du es für einen Fehler in Firefox hältst, melde es auf bugzilla.mozilla.org und verlinkte hier bitte das entsprechende Ticket zwecks Verfolgbarkeit für Interessierte.