Formatting Guidelines


Before we start...

The following desciption of what needs to be done to get a text file into an HTML document tries to be comprehensive. To those new to the HTML business, it may appear overwhelmingly much. If you think it is too much, don't worry. We are already happy with your help if you manage to do only a certain portion of the work and leave other parts up to others. For instance, you might feel fit to scan and recognize text, and thereafter proofread it in whatever program you prefer (Word, WordPerfect, Works...). If you then decide that dealing with the preparation of the HTML conversion and the following tidying up of the converted HTML file is too much for you, you might as well stop right there and email us the text document with all your corrections, and we do the conversion job here. It would, however, be nice if you could follow the rules as given in the section "Basic Rules for Formatting Text" as given below during your correcting the text file.

Since middle of 2002, we are also able to convert PDF-files into HTML files, and we can post PDF-files due to massive hard drive space!

On HTML

In order to format documents ready for posting on the Web, you do not need to have any idea about HTML (Hypertext Markup Language), as long as you have software that does it for you. It is, however, of help if you have some background knowledge. If you want to read an introduction to HTML, look, e.g., at the intro posted at the University of North Carolina in Greensboro, or the intro written by the HTML authorities themselves at W3.org. In case you want the latest and most comprehensive expert info on HTML (not advisable for beginners), go here.

Various versions of HTML

HTML is a language that has changed over the years. Today, there are mainly two version used to markup documents on the internet: version 3.x and version 4.x. Version 3.x. is pretty easy and straight forward. It isinterpreted almost identically by all available browsers, the two most widely spread being Internet Explorer and Netscape Communicator.

Version 4.xcan be extremely complicated and is normally only used by the most recent software, like Word 2000/XP2003. The complexity results:
a) in the interpretation of such converted files by various browsers may be extremely different. For instance, a document written in HTML 4.0 may look nicely and work properly when viewed with Internet Explorer, but may look very weird and may actually produce a lot of error messages when viewed with Netscape Communicator (and vice versa), which renders these webpages unusable.
b) The highly complex formatting does not work properly in many cases, so that text might at the end look badly butchered, especially when tables are involved.
HTML 4.x therefore often requires different pages for different browsers, i.e., all webpages must be available in various versions. Additionally, documents formatted in HTML 4.x are generally much larger then those formatted in HTML 3.x, since they include all sorts of sophisticated, but usually superfluous formatting information.

To cut a long story short: In order to ensure cross-browser compatibility of our pages, to make a clean impression, to be faultless, and to reduce the size of our files, hence saving disk space and download time, we would like to urge everybody NOT to format any document using HTML 4.x, but to stick to HTML 3.x.

Word 2000/XP/2003 is a big NO-NO for conversions!!!

Now, what does it mean? The easiest way to produce HTML-pages is by loading a text file into Microsoft Word, format it there as desired, and save it as HTML. HOWEVER!!! If you do this with Word 2000/XP/2003, what you will get is an HTML document written in HTML 4.0, and that is exactly what we do NOT want to have. Unfortunately Word 2000/XP/2003 has no option to avoid this (the one given in its menu (Tools/Options/General/Web Options/General/"Rely on CSS..." unselected), does not work). There is a free download (plug-in) available from Microsoft which allegedly removes all HTML 4 formatting, but it actually removes almost ALL formatting, so that you end up almost with a plain text file.

We therefore recommend to either use Microsoft Word 97 (which I do, it is one version prior to Word 2000), which formats in HTML 3.2, or to copy all text recognized with an OCR program directly into your HTML editor, like Microsoft Frontpage, and edit it in this program rather than in Word, since Frontpage uses HTML 4.x only if you specifically tell it to (copying text from Word 2000/XP into FrontPage is done as HTML 4.0, so this doesn't work either!

I do not have any experiences with other typesetting programs like Works (does it have an HTML filter?) and WordPerfect. If you use these programs for correcting the OCR-output, I suggest that you first make a test run of converting a simple short text to HTML, send the HTML-file to us and we will tell you if the HMTL language used is acceptable.

If you do not have and do nto want to use Word97:
You still can help by getting the file into the required shap right before it ought to be converted, then sending it back to me. The conversion itself is a matter of seconds and can be done by me. I then can send the converted file back to you for further processing.

 

Basic Rules of Formatting Text

HTML 3.x has mainly three characteristics which you ought to keep in mind permanently:

  1. All paragraphs are separated by one line distance.
  2. Multiple blank spaces are always only rendered as a single blank space.
  3. Tabs do not exists and are rendered as blank spaces.

1) Paragraphs
Avoid multiple carriage returns at the end of paragraphs! They might look nicely in typesetting programs where paragraphs usually follow each other without any space in between. But since paragraphs are automatically set apart in HTML, make sure that you have removed ALL multiple carriage returns (¶) in your document!
(when searching/replacing in Word, this is the special character ^p, when displaying all non-printable characters, they are rendered as ¶. Replace two of those characters - ^p^p - with one - ^p -, as often as double carriage returns are found.)
If you want to keep two paragraphs closely attached to each other (like this one), do not use a carriage return (¶), but a soft line break (in Word it is entered by Shift+Return)
(when searching/replacing, it is ^l, in "view all non-printable characters", it is displayed as 8 , in HTML, it is <br> (break) instead of <p> (paragraph))

2) Multiple Space
Make sure to remove all multiple blank spaces, by search+replace a double space with a single space as often as your typesetting program keeps finding double spaces! Multiple spaces should never be used to create indentations, tables, or to center text! For this, there are other functions in your typesetting program! Multiple spaces - even one million of them - are rendered as one single space by all browsers!

3) Tabulators
HTML cannot render tabulators (tabs). They are all replaced by blank spaces. However, do not simply replace tabs with spaces, but check first whether you need to change the layout. Therefore, search for tabs in your document (in Word it is the special character ^t) and see whether they are required for proper formatting:
a) If you need tabs to make a table-style layout, convert your tab-sorted text into an actual table by using your typesetting programs's text-to-table conversion function. (If necessary, tidy-up the tabs/text first so that the table looks like you want it)
b) If tabs are used to format numbered or bullet lists, replace those lists with automatic bullet/numbered lists as available in your typesetting program. They are properly converted into such lists in HTML.
(<ul> for bullet lists, <ol[ type="..."]> for numbered lists, nested or not, with varying starts or not, see the html intro pages)
In all other cases, tabs should be replaced by simple blank spaces (in Word, "^t" with " "). (Or is there something I missed?)

Formatting Details

Several topics need to be taken care of when preparing a text file for HTML conversion:

  1. Plain Text
  2. Headlines
  3. End-/Footnotes
  4. Tables
  5. Pictures
  6. Pagebreaks and page numbers

1. Plain Text
Plain Text should be formatted without any special characteristics. If your typesetting programm asigns a certain font and font size to its default ("normal") paragraph style, use this for plain text. When converting to HTML, no font style of size is attributed to the text in the file (the style and size used is defined by the visitor's browser settings rather than given in the HTML file itself). This way, the HTML file size gets reduced and the viewer of a document can determine how the text looks like by changing his browser's default settings.

2. Headlines
Make sure that Headlines have a bigger font size than plain text. Use a hierachy of sizes for a hierachy of headlines.
(Usually, book titles are rendered as size=6 or 7, headlines 5, subheadlines 4, and sub-sub-headlines as 3 (default) with any emphasis like italics, underline, bold or others)

3. End-/Footnotes
In case of books, leave end-/footnotes where they are (at the end of the page or end of paragraph/book) and do not bother with linking the notemarks in the text with the actual notes. This is because people using the online book might want to quote from it using the extact page number where a footnote occurs, which would be impossible if we move the notes to a different location. Footnootes at the end of a page should be rendered one font size smaller than the plain text to optically distinguish them, and if numbered, may be formatted as numbered HTML-lists.
(use the <ol start=x> feature to start with a number x higher than one at the beginning of a new list)
In case of articles, render the notes at the end of the article, and if you can, link the endnote marks to the endnotes and vice versa, so that visitors can quickly jump from the note-mark to the note-text
(Word2003 does that automatically; für Word 97 I have a neet macro which does it automatically, too, in case anybody wants to use it. We do not ask you to do this linking for most books because most of them have a non-consecutive/non-numerical numbering which renders linking very complicated.)

4. Tables
Tables are a pain in the neck, since most OCR programs jumble their items all over the place using tabs, and you first have to make sure that all items and tabs are rendered perfectly the way they are supposed to be before you can convert it into a table. Also, most typesetting programs do not convert tables perfectly into HTML tables, so some manual tidying-up is often required.
(If your html skills do not suffice to do it, don't worry too much. I am used to clean up behind my helpers :-))

5. Pictures
I. Scanning
There are two different types of pictures:
a) lineart, consisting of b/w artwork without greyshades. These need to be scanned as b/w bitmap (monochrome) at 300 dpi.
b) b/w or color photos: since these are printed as halftone screens, you need to scan them as greyshades or color in 600 dpi at least! The resulting files size is tremendous (up to 20 MB each) and requires processing before it can be used (smoothing the dot pattern to receive a continuous grey/color pattern, next reducing the picture size by at least 50%, saving in compressed jpg format). Please get in touch with us for more informatiuon on how to do it.
2. Including in the document
Pictures should only in rare cases span the entire width of the monitor (usually 800 pixels). It is better to have them not exceed much more then 1/2 of the monitor width (i.e., 500 px), and to locate them on the right margin with the text flowing around them (using align=right in the img-tag). In case certain pictures require a high resolution, like document facsimiles or highly detailed images, place a small version of this picture in the document, and link it to the full version to be opend in a separate window (using target="_blank" in the a-tag). This accelerates the download time of the main document and gives the visitor the option to see the huge picture file should s/he wish so.
Pictures without caption usually have a border size=1. Pictures with a caption should be placed within a two-row, single column table, right-align and with a border separating the caption optically from the rest of the text (also, consider to use a different font for the caption).
3. HTML Converions
Make sure that the pictures are properly located, formatted and sized after HTML-conversion (some converters screw it up!), that the pictures linked to your document a) exists, b) have the proper name (case sensitive!), c) have the size as given in the document (sometimes they are much larger and need resizing. But test before saving the resized picture that the loss of resolution/quality is not too bad!).

6. Pagebreaks and page numbers
If dealing with journal articles, remove all pagebreaks, page numbers and headers/footers and make sure all text flows over the pagebreak as intended.
If dealing with entire books, we want to keep the pagebreaks and numbers (though not any other text in headers and footers) in order to enable readers to refer to certain page numbers when quoting from our online books. Since pagebreaks are not converted into HTML, we need to replace them in the typesetting programm with a specific marker, e.g. "[pagebreak]".
In Word, a pagebreak can be found with the special command ^m (^b finds section breaks)
After conversion to HTML, this marker is replaced by a "<hr>" tag (horizontal ruler), to mark the page break.
Also, leave all page numbers where they are on the original! It is most convenient to center page numbers on the page.

HTML Aftermath

There are two more items that require attention after successful HTML conversion:

  1. Including Header and Footer Information
  2. Breaking up Books

1. Including Header and Footer Information
1. Header
a) meta tags and title tag
These tags at the very beginning of your HTML document should be properly set (before breaking up a book!). If you do not want to enter it right into the HTML code, use your HTML editor's "Properties" option in the File menu (FrontPage):

<meta Name="description"
Content="[write a brief sentence describing the book]">
(Frontpage: File/Properties/Custom/User Variables/Description)

<meta Name="keywords"
Content="[include a comma-separated list of terms covered by the book. Some search engines use this. Can be omitted, however, since most search engines take it from the content]">
(Frontpage: File/Properties/Custom/User Variables/Keywords)

<TITLE>[Write in here: author(s)'s name(s), title of the book/article. In case of a journal, you might as well indicate the journal's name (abbreviated if possible) and issue]</TITLE>
(Frontpage: File/Properties/general/Title)

b) additional items
Depending on the website your page is supposed to be posted at, you might need to include more information at the top of your html page.
What follows, is what you ought to include when a file is intended to be posted at www.vho.org. For other websites, please ask:
After the <head> tag, include in the next line the following text (setting the background appearance, link color patterns, default fonts etc):

<link rel=stylesheet type="text/css" href="http://vho.org/style.css">

Make sure that the <body> tag actually looks like this, i.e, that all options in this tag are deleted. Then add the following line after the <body> tag, which includes the www.vho.org navigation bar in your document:

<script language="JavaScript" src="http://vho.org/HeadScript.js"></script>

In case of periodicals, a second more simple navigation bar for this periodical is given (see, e.g., at www.vho.org/F/j/RHR/1 or www.vho.org/VffG/1997/1). Please contact us in case you are working on journal articles of an entire series.

2. Footer
a) Linking
All documents need to be linked back to their table of contents, and to following/preceeding pages of a series, if there are any. Hence, at the end of each page, the text with links as given in the left column of the following table should appear, separated from the rest of the page on top and bottom by a <hr> (text is preferably centered, and kept closely together by <br>):

Link

Description

Back to Table of Contents Links back to table of contents of a book or a certain issue of a journal
To the next chapter Links to the next chapter/installment of a book/journal article series (if there is any)
To the previous chapter Links to the previous chapter/installment of a book/journal article series (if there is any)
Back to archive Links back to a central archive of a website (if there is any). In case of vho.org, it is www.vho.org/Archive.html

a) additional items
Like the navigation bar on top of each page of www.vho.org, some websites have an certain item at the bottom of each page. What has to be entered, again depends on the website where the item is to be published. For www.vho.org, the end of every webpage looks like this, resulting in a last-update-date, a contact address, and a link back to the top of the page:

<script language="JavaScript" src="http://www.vho.org/FootScript.js"></script>
</body>
</html>

2. Breaking up Books
Journal articles are always posted as one piece. Most books, however, are too big to be posted in one single document, so we have to split them up into several pieces.
Usually, the division of a book in several chapters according to its table of contents will give a perfect guideline how/where to break it up. Make as many copies of the HTML file of your book as there will be chapters, plus one (for the separate table of contents), and rename them using short numbered names (like index.html for the Title+TOC, and 1.html, 2.html, 3.html... for all subsequent sections. This makes linking easy).
Next, remove all the text before and after the section supposed to make up the file (make sure not to delete the header and footer items). The index.html-file should include the title page, imprint page and any other page before the actual start of the book, as well as the Table of Contents. The later should be a bullet/numbered list (nested, if required), and every entry needs to be linked to the html-files of each section.
Finally, make sure to correct the links at the end of the each page leading to the next/previous chapter of the book.

Well Done!
I know, this is a lot of work, but once used to it, it goes faster than you think! And consider this: Most of the 1500+ documents posted on www.vho.org where done basically by one person only over the last three years, as a spare time job!
So if several volunteers can contribute only a fraction of this, I am sure our websites will grow and become more and more complete and attractive!

Please feel free to contact me in case you have any questions.

Thanks in advance

Germar Rudolf
chp@vho.org

Bevor wir anfangen...

Die nachfolgende Beschreibung dessen, was getan werden muß, um eine Textdatei in ein HTML-Dokument umzuwandeln, versucht umfassend zu sein. Für diejenigen, für die HTML etwas Neues ist, mag dies als zu viel erscheinen. Wenn Sie also meinen, Sie seien damit überfordert, so sorgen Sie sich nicht. Wir sind auch schon zufrieden mit Ihrer Hilfe, wenn diese nur einen Teil der zu leistenden Arbeit umfaßt, wenn Sie also den Rest anderen überlassen. So mögen Sie sich z.B. in der Lage sehen, Texte zu scannen, mit einem OCR-Programm zu erkennen und danach mit einem Textverarbeitungsprogramm Ihrer Wahl zu korrigieren (Word, WordPerfect, Works...). Wenn Sie anschließend der Auffassung sind, die unten beschriebene Vorbereitung zur HTML-Umwandlung sowie die sich daran anschließenden Aufräumarbeiten in der umgewandelten Datei seien zu viel für Sie, so können Sie an diesem Punkt aufhören und uns das Textdokument mit all Ihren Korrekturen per Email zusenden. Wir erledigen dann hier den Rest. Es wäre allerdings nett, wenn sie bei der Korrektur Ihrer Textdatei zumindest die im unten angeführten Abschnitt "Grundregeln der Textformatierung" aufgeführten Regeln beachteten.

Wir können seit Mitte 2002 auch PDF-Dateien in HTML-Dateien umwandeln und Dank uppigem Plattenplatz auch im PDF-Format aushängen!

Über HTML

Um Texte für das Internet zu formatieren, brauchen Sie keinerlei Kenntnisse über HTML (Hypertext Markup Language) zu haben, vorausgesetzt, Sie befinden sich im Besitze einer Software, welche die Arbeit für Sie erledigt. Ein wenig Grundlagenwissen aber kann dennoch von Nutzen sein. HTML-Einführungen finden Sie bei der akademie.de oder - in Englisch - von der HTML-Autorität W3.org selbst. Haben Sie Interesse an den neuesten und umfassendsten Experteninformationen, ebenfalls in Englisch und nichts für Anfänger, dann klicken Sie hier.

Verschiedene Fassungen von HTML

HTML ist eine Internet-Sprache, welche sich die Jahre hindurch gewandelt hat. Derzeit sind hauptsächlich zwei Versionen in Gebrauch, um Texte für das Internet zu formatieren: Version 3.x. und Version 4.x.. Version 3.x. ist einfach konstruiert und wird von allen zur Verfügung stehenden Browsern fast identisch dargestellt, vor allem von den beiden gebräuchlichsten: Internet Explorer und Netscape Communicator.

Version 4.x. ist außerordentlich kompliziert und wird normalerweise nur in der neuesten Software wie Word 2000/XP/2003 verwendet. Die Kompliziertheit hat nun ärgerlicherweise zur Folge:
a) Internet-Darstellungen in verschiedenen Browsern können erheblich voneinander abweichen können. So mag es geschehen, daß ein in HTML 4.x. geschriebener Text im Internet Explorer absolut zufriedenstellend erscheint, in Netscape Communicator jedoch sehr seltsam ausschaut und sogar eine Menge Fehlermeldungen verursacht, und umgekehrt.
b) Die hochgradige Formatierung funktioniert oft nicht richtig, und der Text sieht am Ende völlig grausam und geschunden aus, insbesondere wenn Tabellen vorkommen.
Derlei  Texte sind also für das Internet nicht zu gebrauchen. Eine in HTML 4.x. formatierte  Internet-Seite muß für die einzelnen Browser in verschiedenen Fassungen vorliegen. Und damit nicht genug, in HTML 4.x. formatierte Texte sind im allgemeinen um Vieles größer als solche in HTML 3.x., weil erstere alle möglichen komplizierten aber unnötigen (und machnmal nicht funktionierenden) Formatierungsinformationen enthalten.

Der langen Rede kurzer Sinn: Um Kompatibilität unserer Seiten für die unterschiedlichen Browser zu gewährleisten, einen sauberen Eindruck zu machen, fehlerfrei zu sein, und um zur Platz- und Ladezeitersparnis die Größe unserer Dateien zu reduzieren, bitten wir Sie dringend, in keinem Fall in HTML 4.x., sondern immer nur in HTML 3.x. zu formatieren.

Niemals Word 2000/XP/2003 zum Konvertieren verwenden!!!

Was bedeutet das? Der einfachste Weg zu einer HTML-Seite ist, einen Text in Word zu laden, ihm dort die gewünschte Form zu geben und ihn anschließend in HTML abzuspeichern. ABER!!!! Wenn Sie Word 2000/XP/2003 haben, landen Sie unweigerlich bei HTML 4.x., und das ist genau das, was wir nicht wollen. Word 2000/XP/2003 haben leider keine Möglichkeit, dieses Ergebnis zu verhindern (die Menue-Option: Tools/Options/General/Web Options/General/"Rely on CSS..." unselected funktioniert nicht). Daneben bietet Microsoft noch einen Programmzusatz für Word an, welcher angeblich die HTML 4.x.-Formatierungen entfernen soll. Es werden aber nicht nur die ungewünschten, sondern auch alle sonstigen Formatierungen beseitigt. Sie enden also da, wo Sie angefangen haben, nämlich bei der fast formatlosen Text-Datei.

Zwei Möglichkeiten gibt es, dem Dilemma zu entfliehen: Sie können, wie ich es auch tue, in der Word 2000 vorangehenden Version Word 97 arbeiten, welche in HTML 3.2. formatiert. Oder Sie kopieren Ihre mit OCR erkannten Texte sogleich in Ihren HTML-Editor wie z. B.  Microsoft Frontpage, um sie hier zu korrigieren und in die gewünschte Form zu bringen, da Frontpage HTML 4.x nur verwendet, wenn man es ausdrücklich wünscht. (Es hat auch keinen Sinn, Text von Word 2000/XP/2003 in Frontpage zu kopieren, da Sie dann den HTML 4.x-Code von Word mitnehmen.)

Ich habe keine Erfahrung mit anderen Schreibprogrammen wie Works - hat es überhaupt einen HTML-Filter? - und Word Perfect. Wenn Sie eines dieser Programme benutzen, um Ihre OCR-Texte zu korrigieren, dann empfehle ich, erst einmal einen Probelauf zu machen. Konvertieren Sie einen einfachen, kurzen Text in HTML, senden ihn an uns und wir werden schauen, ob wir damit etwas anfangen können.

Falls Sie Word97 nicht haben oder nicht benutzen wollen:
Sie können uns dennoch helfen, indem Sie die Datei in das notwendige Format bringen bis zu dem Punkt unmittelbar vor der Konvertierung. Dann senden Sie mir die Datei zurück. Ich konvertiere sie hier, was nur Sekunden dauert, und schicke Sie zur Weiterbearbeitung zurück.

Grundregeln der Textformatierung

HTML 3.x besitzt drei Haupteigenschaften, die man immer im Hinterkopf behalten sollte:

  1. Alle Absätze werden durch eine Zeilenbreite voreinander getrennt.
  2. Mehrfache Leerzeichen werden immer nur als ein einfaches Leerzeichen wiedergegeben.
  3. Tabulatoren existieren nicht und werden als Leerzeichen wiedergegeben.

1) Absätze
Vermeiden Sie mehrfache Absatzendzeichen am Ende eines Absatzes! Es mag nett aussehen, in einem Textverarbeitungsprogramm, wo Absätze normalerweise ohne Zwischenraum aufeinander folgen, diese durch zwei Absatzendzeichen voneinander abzusetzen. Aber da Absätze in HTML automatisch durch eine Zeilenbreite voneinander getrennt werden, muß man dafür sorgen, daß ALLE mehrfachen Absatzendzeichen (¶) im Dokument entfernt werden! (Sonst sind sie drei Zeilen breit von einander entfernt!)!
(beim Suchen/Ersetzen in Word ist dies das Sonderzeichen ^p, bei "Ansicht nichtdruckbarer Zeichen", wird es als ¶ angezeigt. Ersetzen sie zwei solcher Zeichen - ^p^p - solange durch eines - ^p -, bis keine doppelten Absatzendzeichen mehr zu finden sind.)
Wenn man zwei Absätze ohne Zwischenraum zusammenhalten will (wie diese hier), so darf man nicht das normale Absatzendzeichen verwenden (¶, eingefügt durch Drücken der Return-Taste), sondern einen weichen Zeilenumbruch (Einfügen in Word durch Shift+Return)
(beim Suchen/Ersetzen in Word ist dies das Sonderzeichen ^l, bei "Ansicht nichtdruckbarer Zeichen", wird es als 8  angezeigt, in HTML, ist dies <br> (break) statt <p> (paragraph))

2) Mehrfache Leerzeichen
Beseitigen Sie durch Suchen und Ersetzen alle mehrfachen Leerzeichen, indem Sie zwei Leerzeichen durch ein einfaches ersetzen. Wiederholen Sie die Prozedur so lange, wie in Ihrem Schreibprogramm doppelte Leerzeichen zu finden sind. Leerzeichen sollten niemals verwendet werden, um Texte einzurücken, zu zentrieren oder Tabellen zu erstellen! Dafür gibt es entsprechende Funktionen in Textverarbeitungsprogrammen! Mehrfache Leerzeichen - selbst eine Million davon - werden von allen Browsern als ein einzelnes Leerzeichen dargestellt!

3) Tabulatoren
HTML kann keine Tabulatoren darstellen. Sie werden statt dessen als Leerzeichen wiedergegeben. Ersetzen Sie aber nicht einfach alle Tabulatoren im Text durch Leerzeichen, sondern kontrollieren Sie zuerst, ob das Layout nicht geändert werden muß. Sie müssen daher im Text nach Tabulatoren suchen (in Word Sonderzeichen ^t) und in jedem Fall prüfen, ob Sie eine andere Formatierung verwenden müssen
a) Wenn Tabulatoren verwendet werden, um eine Tabelle zu erstellen, so sollten diese Absätze mit der entsprechenden Text-zu-Tabelle-Umwandlungsoption Ihres Programms in eine Tabelle umgewandelt werden. (Falls nötig, sortieren Sie die Tabulatoren und den Text, bevor Sie die Umwandlung machen, damit die Tabelle das gewünschte Format bekommt)
b) Wenn Tabulatoren verwendet werden, um numerierte oder markierte Listen zu erstellen, so ersetzen Sie diese Listen mit den automatischen numerierten oder markierten Listen, wie sie jedes Textverarbeitungsprogramm anbietet. Diese werden in entsprechende numerierte/markierte Listen in HTML umgewandelt.
(<ul> für markierte Listen, <ol[ type="..."]> für numerierte Listen, verschachtelt oder nicht, mit unterschiedlichem Start oder nicht, vgl. die Einführung in HTML)
In allen anderen Fällen sollten Tabulatoren durch Leerzeichen ersetzt werden (in Word "^t" mit " "). (Oder habe ich was übersehen?)

Einzelheiten des Formatierens

Folgende Einzelheiten müssen beim Formatieren eines Textes in HTML berücksichtigt werden:

  1. Einfacher Text
  2. Überschriften
  3. End- und Fußnoten
  4. Tabellen
  5. Bilder
  6. Seitenumbrüche und Seitenzahlen

1. Einfacher Text
Einfacher Text sollte ohne Besonderheiten formatiert werden. Falls Ihr Textverarbeitungsprogramm ein bestimmtes Buchstabenformat für den voreingestellten, normalen Absatzstil hat, so nutzen Sie bitte diesen für einfachen Text. Bei der Konvertierung wird dem Text dadurch in der Datei selbst keine Formatcharakteristik zugewiesen ("default", die Definition von Buchstabenart und Größe erfolgt durch die Browsereinstellung des Besuchers der Webseite). Auf diese Weise wird die HTML-Dateigröße gering gehalten, und der Besucher kann selbst bestimmen, wie die Seite aussieht, indem er die Einstellung seines Browsers ändert.

2. Überschriften
Überschriften sollten in größerer Schrift dargestellt werden als der normale Text. Für eine Gliederung der Überschriften sollten diese je nach Stellung von unterschiedlicher Schriftgröße sein. (Buchtitel haben normalerweise die Größe 6 oder 7, Kapitelüberschriften 5, Unterüberschriften in Kapiteln 4, die nächst-niedrige Stufe 3 (Normalgröße), hervorgehoben durch Hervorhebungen wie Schrägdruck, Unterstreichungen, Fettdruck.)

3. End- und Fußnoten
Bei Büchern lassen Sie die Anmerkungen, wie sie sind, am Seiten-, Kapitel- oder am Buchende. Wenn Sie die Plazierung der Anmerkungen ändern, entspricht der online-Text nicht mehr dem gedruckten Text und es kann nicht ordnungsgemäß daraus zitiert werden. Fußnoten am Seitenende sollten eine Schriftgröße kleiner als der normale Text sein, um sich optisch von ihm abzuheben. Falls die Anmerkungen numeriert sind, können Sie die HTML-Listenfunktion benutzen.
(Benutzen Sie <ol start=x> Funktion, um eine neue Liste mit der Nummer x größer als eins zu beginnen)
Bei Artikeln müssen die Anmerkungen an das Artikelende plaziert werden, und, wenn es Ihnen möglich ist, verlinken Sie die Zahlen im Text mit den Anmerkungen, so daß der Leser von der Zahl zur Anmerkung wechseln kann.
(Word2003 macht das automatisch; Für Word 97 habe ich einen netten Word-Makro, der das automatisch macht, falls jemand ihn nutzen möchte. Wir bitten Sie allerdings nicht, diese Verlinkung auch mit Büchern zu machen, da viele Bücher eine nichtnumerische oder nichtstetige Numerierung haben, wodurch das Verlinken sehr kompliziert wird.)

4. Tabellen
Tabellen sind ein Stachel im Fleisch, da die meisten OCR-Progamme die einzelnen Zeilen mit Hilfe von Tabulatoren ohne System irgendwohin plazieren. Sie müssen dem Text erst die gewünschte Form geben, ehe Sie ihn in eine Tabelle Ihres Schreibprogrammes konvertieren können. Und damit nicht genug: Auch die Konvertierung von Tabellen in HTML ist meist nicht fehlerlos, so daß auch hier noch einmal Nacharbeit erforderlich ist.
(Wenn Ihre HTML-Kenntnisse für solche Aufräumarbeiten nicht ausreichen, machen Sie sich bitte keine Gedanken. Ich bin es gewohnt, hinter meinen Helfern aufzuräumen :-))

5. Bilder
I. Scannen
Es gibt zwei Arten von Bildern:
a) Strichzeichnungen, welche aus schwarz-weiß Zeichnungen ohne Grauschattierungen bestehen. Diese müssen als schwarz-weiß Bitmap (Monochrom) mit 300 dpi gescannt werden (dots per inch = Punkte pro Zoll).
b) schwarz-weiß oder Farbfotos: da diese Bilder gerastert sind (Punkmatrix), müssen diese als Grauschattierung oder Farbbilder mit einer Auflösung von mindestens 600 dpi gescannt werden! Die sich daraus ergebende Dateigröße ist enorm (je bis zu 20 MB) und bedarf der Bearbeitung, bevor das Bild verwendet werden kann (Glätten der Punktmatrix zu einem kontinuierlichen Grau-/Farbmuster, anschließend Reduktion der Bildgröße um mindestens 50%, und Abspeichern im komprimierten jpg-Format). Bitte nehmen Sie mit uns Kontakt auf bezüglich weiterer Informationen.
2. Einfügen in die Dokumente
Nur in seltenen Fällen sollten Bilder die gesamte Bildschirmbreite ausfüllen, normalerweise 800 Pixel (=Lichtpunkte Ihres Monitors). Besser ist es, wenn ein Bild nicht viel mehr als den halben Bildschirm mit beispielsweise 500 Pixel einnimmt und am rechten Bildschirm-Rand plaziert wird, wobei der Text drum herum fließt. (durch Verwendung des Befehls align=right im img-tag). Falls ein Bild eine hohe Auflösung verlangt, wie z. B. Faksimiles von Dokumenten oder besonders detailreiche Bilder, dann fügen Sie eine kleine Version des Bildes in den Text ein und geben dem Bild einen Link zu einer größeren Fassung, die sich in einem vom Text getrennten Fenster öffnet (durch Benutzung des Befehls target="_blank" im a-tag). Ein solches Verfahren verkürzt die Ladezeit des Hauptdokumentes und stellt es dem Leser frei, in welcher Form er das Bild studieren möchte.
Bilder ohne Unterschrift haben für gewöhnlich eine Randdicke von size=1. Bilder mit Bildunterschriften sollten als eine zwei-reihige, einspaltige Tabelle dargestellt werden, rechts ausgerichtet (align=right) und mit einem Rahmen versehen, um die Unterschrift optisch vom Text abzusetzen. (Überdies ist zu überlegen, die Unterschrift in einer anderen Schriftart zu setzen.)
3. HTML Konvertierung
Nach der Konvertierung der Bilder in HTML sollten Sie noch einmal prüfen, ob diese richtig plaziert, formatiert und größenmäßig angepaßt sind (das klappt beim Konvertieren oft nicht richtig), sodann, ob das im Text plazierte Bild auch wirklich erscheint und den richtigen Namen hat (Groß-/Kleinschreibung beachten!) und ob ein dem Text eingefügtes Bild nicht doch zu groß geworden ist und verkleinert werden muß. Bevor Sie aber ein verkleinertes Bild abspeichern, sollten Sie wiederum testen, ob durch die Verkleinerung nicht die Qualität allzusehr gelitten hat.

6. Seitenumbrüche und Seitenzahlen
Bei Zeitschriftenartikeln können Sie Seitenumbrüche, Seitenzahlen und Kopf-/Fußzeilen entfernen, so daß der Text fortlaufend erscheint.
Bei Büchern sollten Seitenumbrüche und Seitenzahlen erhalten bleiben (allerdings nicht der sonstige Text in Kopf-/Fußzeilen), damit aus dem online-Buch ordnungsgemäß zitiert werden kann. Da Seitenumbrüche nicht in HTML konvertiert werden, müssen sie im Schreibprogramm durch eine spezielle Markierung ersetzt werden, z. B. "[pagebreak]".
(Ein Seitenumbruch kann in Word mit dem Sonderbefehl ^m gefunden werden (^b findet Absatzumbrüche)
Nach der Konvertierung in HTML muß diese Markierung durch einen horizontalen Strich ersetzt werden "<hr>" (= horizontal ruler), um den Seitenumbruch zu markieren.
Die Seitenzahlen lassen Sie, wo sie im Buch sind. Es ist zudem angemessen, Seitenzahlen zu zentrieren.

HTML Nachspiel

Es gibt zwei weitere Dinge, die nach erfolgreicher HTML-Konvertierung unserer Aufmerksamkeit bedürfen:

  1. Einfügen von Kopfzeilen- und Fußzeilen-Infos
  2. Aufspaltung von Büchern

1. Einfügen von Kopfzeilen- und Fußzeilen-Infos
1. Kopfzeile
a) meta tags und title tag
Diese Tags zu Beginn Ihres HTML Dokuments sollten ordnungsgemäß ausgeführt sein (bevor ein Buch aufgeteilt wirde!). Wenn Sie es nicht direkt in den HTML-Code einfügen wollen, benutzen Sie die "???Eigenschaften"-Option Ihres use your HTML-Editors im Datei-Menü menu (FrontPage):

<meta Name="description"
Content="[Ein kurzer Satz, der das Buch beschreibt]">
(Frontpage: Datei/Eigenschaft???/Custom/User Variables/Description???)

<meta Name="keywords"
Content="[Komma-separierte Liste von Begriffen, die im Buch behandelt werden. Einige Suchmotoren nutzen dies. Es kann aber ausgelassen werden, da die meisten Suchmotoren den Text-Inhalt selbst absuchen]">
(Frontpage: Datei/Eigenschaft???/Custom/User Variables/Keywords???)

<TITLE>[Einfügen: Autor(en) Name(n), Titel des Buches/Artikels. Im Fall von Zeitschriftenartikeln sollte man auch den Zeitschriftentitel angeben (möglichst abgekürzt) und die Ausgabe]</TITLE>
(Frontpage: Datei/Eigenschaft???/general/Title)

b) weitere Dinge
Abhängig von der Website, auf der ihre Seite veröffentlicht werden soll, mag es nötig sein, weitere Informationen am Anfang des HTML-Dokuments einzufügen.
Das Nachfolgende ist, für Dokumente gedacht, die auf www.vho.org veröffentlicht werden sollen. Für andere Webseiten fragen sie bitte dort nach:
Nach dem <head> Tag fügen sie die folgende Zeile ein (dies definiert den Hintergrund, Link-Farbverhalten, default fonts usw.):

<link rel=stylesheet type="text/css" href="http://vho.org/style.css">

Sorgen Sie dafür, daß der <body> Tag tatsächlich so aussieht, d.h. das alle Optionen und Befehle darin gelöscht sind. Dann fügen sie in der Zeile nach dem <body> Tag folgenden Text ein, durch den die Menüleiste von www.vho.org in Ihr Dokument eingefügt wird:

<script language="JavaScript" src="http://vho.org/HeadScript.js"></script>

Im Fall von Periodika wird eine zweite, einfachere Menüleiste dieses Periodikums eingefügt (siehe z.B. www.vho.org/F/j/RHR/1 or www.vho.org/VffG/1997/1). Bitte fragen Sie uns, falls Sie an Zeitschriftenartikeln einer ganzen Serie arbeiten.

2. Footer
a) Verlinkung
Alle Dokuments müssen mit ihrem Inhaltsverzeichnis verlinkt werden sowie mit folgenden/Vorhergehenden Seiten einer Serie, so es solche gibt. Am Ende einer jeden Seite sollte daher der in der linken Spalte der folgenden Tabelle wiedergegebene Text mit Links auftauchen, oben und unten abgesetzt vom Rest der Seite durch eine Linie <hr> (den Text am besten zentrieren und durch <br> eng zusammen halten):

Link

Bexchreibung

Zurück zum Inhaltsverzeichnis Link zurück zum Inhaltsverzeichnis eines Buches oder einer bestimmten Ausgabe einer Zeitschrift
Zum nächsten Abschnitt Link Zum nächsten Abschnitt/Teil eines Buches/einer Zeitschriftenartikelserie (falls gegeben)
Zum vorhergehenden Abschnitt Link zum vorhergehenden Abschnitt/Teil eines Buches/einer Zeitschriftenartikelserie (falls gegeben)
Zurück zum Archiv Link zurück zum Archiv der Website (falls gegeben). Im Fall von vho.org ist dies www.vho.org/Archive.html

a) weitere Dinge
Ähnlich der Menüleiste auf jeder Seite von www.vho.org, so haben einige Websites auch bestimmte Dinge, dies sich am Ende jeder Seite befinden. Dies hängt wieder ganz von der Website ab, wo das Dokument veröffentlicht werden soll. Für www.vho.org sieht das Ende jeder Seite wie folg aus, resultierend in der Angabe der letzten Aktualisierung, einer Kontaktadresse und einem Link zurück zum Anfang der Seite:

<script language="JavaScript" src="http://www.vho.org/FootScript.js"></script>
</body>
</html>

2. Das Aufteilen der Bücher
Zeitschriftenartikel werden, wie schon erwähnt, als Ganzes ins Netz gestellt. Die meisten Bücher aber sind für eine einzelne Datei zu umfangreich, sie müssen in Teile zerlegt werden.
Dabei bietet sich an, die Kapiteleinteilung zu übernehmen. Fertigen Sie einfach so viele HTML-Kopien des Buches an, wie es Kapitel hat, zuzüglich einer Kopie (für das Inhaltsverzeichnis). Dann benennen Sie die Dateien um, indem sie ihnen kurze, durchnumerierte Namen geben (wie index.html, für Titelseiten+Inhaltsverzeichnis, und 1.html, 2.html, 3.html... für alle nachfolgenden Abschnitte. Das erleichtert das Verlinken.)
Sodann löschen Sie in jeder Datei alles, was nicht zum gegebenen Abschnitt gehört. Achten Sie nur darauf, daß die jeweiligen Kopf- und Fußzeilen nicht beseitigt werden. Die Index-Datei sollte die Titelseite des Buches, das Impressum und alle weiteren Seiten vor dem eigentlichen Buchanfang sowie zuletzt das Inhaltsverzeichnis enthalten. Das Inhaltsverzeichnis sollte als Liste dargestellt werden (verschachtelt, falls nötig), in welcher jeder Eintrag mit dem dazugehörigen Kapitel verlinkt ist. Schließlich müssen am Ende einer jeden Datei Links angebracht werden, um zum nächsten oder zurück zum vorherigen Kapitel zu gelangen.

Gratulation!
Ich weiß, wieviel Arbeit es ist, aber, wenn man etwas Routine hat, geht es doch schneller, als man am Anfang denkt. Die meisten der mehr als 1500 Dokumente in www.vho.org sind in den letzten drei Jahren von nur einer einzigen Person in ihrer Freizeit ins Netz gebracht worden.
Wenn unsere freiwilligen Mitarbeiter nur einen Bruchteil dieser Zeit aufbringen, wird unsere Seite noch größer, vollständiger und attraktiver werden und sie wird besser noch als bisher ihren Sinn erfüllen.

Wenn Sie Fragen haben, zögern Sie nicht, uns anzusprechen.

Danke für alle vor Ihnen liegende Mühe!

Germar Rudolf
chp@vho.org


Close this window