|
Before we start... The following
desciption of what needs to be done to get a text file into an HTML
document tries to be comprehensive. To those new to the HTML business, it
may appear overwhelmingly much. If you think it is too much, don't worry.
We are already happy with your help if you manage to do only a certain
portion of the work and leave other parts up to others. For instance, you
might feel fit to scan and recognize text, and thereafter proofread it in
whatever program you prefer (Word, WordPerfect, Works...). If you then
decide that dealing with the preparation of the HTML conversion and the
following tidying up of the converted HTML file is too much for you, you
might as well stop right there and email us the text document with all
your corrections, and we do the conversion job here. It would, however, be
nice if you could follow the rules as given in the section "Basic
Rules for Formatting Text" as given below during your correcting
the text file.
Since middle of 2002, we are also able to convert
PDF-files into HTML files, and we can post PDF-files due to massive hard
drive space!
On HTML In order to format
documents ready for posting on the Web, you do not need to have any idea
about HTML (Hypertext Markup Language), as long as you have software
that does it for you. It is, however, of help if you have some background
knowledge. If you want to read an introduction to HTML, look, e.g., at the
intro posted at the University
of North Carolina in Greensboro, or the intro written by the HTML
authorities themselves at W3.org. In case you want the latest and most
comprehensive expert info on HTML (not advisable for beginners), go here. Various
versions of HTML HTML is a language that has
changed over the years. Today, there are mainly two version used to markup
documents on the internet: version 3.x and version 4.x. Version 3.x. is
pretty easy and straight forward. It isinterpreted almost
identically by all available browsers, the two most widely spread being
Internet Explorer and Netscape Communicator. Version
4.xcan be extremely complicated and is normally only used by
the most recent software, like Word 2000/XP2003. The complexity results:
a) in the
interpretation of such converted files by various browsers may be extremely
different. For instance, a document written in HTML 4.0 may look nicely
and work properly when viewed with Internet Explorer, but may look very
weird and may actually produce a lot of error messages when viewed with
Netscape Communicator (and vice versa), which renders these webpages
unusable.
b) The highly complex formatting does not work properly in many cases,
so that text might at the end look badly butchered, especially when
tables are involved.
HTML 4.x therefore often requires different pages for different
browsers, i.e., all webpages must be available in various versions.
Additionally, documents formatted in HTML 4.x are generally much larger
then those formatted in HTML 3.x, since they include all sorts of
sophisticated, but usually superfluous formatting information. To
cut a long story short: In order to ensure cross-browser compatibility of
our pages, to make a clean impression, to be faultless, and to reduce the size of our files, hence saving disk space and
download time, we would like to urge everybody NOT to format any document
using HTML 4.x, but to stick to HTML 3.x. Word 2000/XP/2003
is a big NO-NO for conversions!!! Now, what does it mean? The
easiest way to produce HTML-pages is by loading a text file into Microsoft
Word, format it there as desired, and save it as HTML. HOWEVER!!! If you
do this with Word 2000/XP/2003, what you will get is an HTML document written in
HTML 4.0, and that is exactly what we do NOT want to have. Unfortunately
Word 2000/XP/2003 has no option to avoid this (the one given in its menu
(Tools/Options/General/Web Options/General/"Rely on CSS..."
unselected), does not work). There is a free download (plug-in) available
from Microsoft which allegedly removes all HTML 4 formatting, but it
actually removes almost ALL formatting, so that you end up almost with a plain
text file. We therefore recommend to either use
Microsoft Word 97 (which I do, it is one version prior to Word 2000),
which formats in HTML 3.2, or to copy all text recognized with an OCR
program directly into your HTML editor, like Microsoft Frontpage, and edit
it in this program rather than in Word, since Frontpage uses HTML 4.x only
if you specifically tell it to (copying text from Word 2000/XP into
FrontPage is done as HTML 4.0, so this doesn't work either!
I
do not have any experiences with other typesetting programs like Works
(does it have an HTML filter?) and WordPerfect. If you use these programs
for correcting the OCR-output, I suggest that you first make a test run of
converting a simple short text to HTML, send the HTML-file to us and we
will tell you if the HMTL language used is acceptable.
If you do not have and do nto want to use Word97:
You still can help by getting the file into the required shap right
before it ought to be converted, then sending it back to me. The
conversion itself is a matter of seconds and can be done by me. I then
can send the converted file back to you for further processing.
Basic
Rules of Formatting Text HTML 3.x has mainly three
characteristics which you ought to keep in mind permanently:
- All paragraphs are separated by one line distance.
- Multiple blank spaces are always only rendered as a single
blank space.
- Tabs do not exists and are rendered as blank spaces.
1) Paragraphs
Avoid multiple carriage returns at the end of paragraphs! They might look nicely in typesetting
programs where paragraphs usually follow each other without any space in
between. But since paragraphs are automatically set apart in HTML, make
sure that you have removed ALL multiple carriage returns (¶) in your
document!
(when searching/replacing in Word, this is the special
character ^p, when displaying all non-printable characters, they are
rendered as ¶. Replace two of those characters - ^p^p - with one -
^p -, as often as double carriage returns are found.)
If you want to keep two paragraphs closely attached to each other (like
this one), do not use a carriage return (¶), but a soft line break (in
Word it is entered by Shift+Return)
(when searching/replacing, it is ^l, in "view
all non-printable characters", it is displayed as 8 ,
in HTML, it is <br> (break) instead of <p> (paragraph))
2) Multiple Space
Make sure to remove all multiple blank spaces, by search+replace a
double space with a single space as often as your typesetting program
keeps finding double spaces! Multiple spaces should never be used to
create indentations, tables, or to center text! For this, there are other
functions in your typesetting program! Multiple spaces - even one million
of them - are rendered as one single space by all browsers!
3) Tabulators
HTML cannot render tabulators (tabs). They are all replaced by blank
spaces. However, do not simply replace tabs with spaces, but check first
whether you need to change the layout. Therefore, search for tabs in your
document (in Word it is the special character ^t) and see whether they are required for proper formatting:
a) If you need tabs to make a table-style layout, convert your tab-sorted
text into an actual table by using your typesetting programs's
text-to-table conversion function. (If necessary, tidy-up the tabs/text
first so that the table looks like you want it)
b) If tabs are used to format numbered or bullet lists, replace those
lists with automatic bullet/numbered lists as available in your
typesetting program. They are properly converted into such lists in HTML.
(<ul> for bullet lists, <ol[
type="..."]> for numbered lists, nested or not, with varying
starts or not, see the html
intro pages)
In all other cases, tabs should be replaced by simple blank spaces
(in Word, "^t" with " ").
(Or is there something I missed?)
Formatting Details
Several topics need to be taken care of when preparing a
text file for HTML conversion:
- Plain Text
- Headlines
- End-/Footnotes
- Tables
- Pictures
- Pagebreaks and page numbers
1. Plain Text
Plain Text should be formatted without any special characteristics. If
your typesetting programm asigns a certain font and font size to its
default ("normal") paragraph style, use this for plain text.
When converting to HTML, no font style of size is attributed to the text
in the file (the style and size used is defined by the visitor's browser settings rather
than given in the
HTML file itself). This way, the HTML file size gets reduced and the
viewer of a document can determine how the text looks like by changing his
browser's default settings.
2. Headlines
Make sure that Headlines have a bigger font size than plain text. Use a
hierachy of sizes for a hierachy of headlines.
(Usually, book titles are rendered as size=6 or 7,
headlines 5, subheadlines 4, and sub-sub-headlines as 3 (default) with any
emphasis like italics, underline, bold or others)
3. End-/Footnotes
In case of books, leave end-/footnotes where they are (at the end of the
page or end of paragraph/book) and do not bother with linking the
notemarks in the text with the actual notes. This is because people using
the online book might want to quote from it using the extact page number
where a footnote occurs, which would be impossible if we move the
notes to a different location. Footnootes at the end of a page should be
rendered one font size smaller than the plain text to optically
distinguish them, and if numbered, may be formatted as numbered HTML-lists.
(use the <ol start=x> feature to start with a number
x higher than one at the beginning of a new list)
In case of articles, render the notes at the end of the article,
and if you can, link the endnote marks to the endnotes and vice versa, so
that visitors can quickly jump from the note-mark to the note-text
(Word2003 does that automatically; für Word 97 I have a neet macro which does it automatically,
too,
in case anybody wants to use it. We do not ask you to do this linking for
most books because most of them have a non-consecutive/non-numerical
numbering which renders linking very complicated.)
4. Tables
Tables are a pain in the neck, since most OCR programs jumble their items
all over the place using tabs, and you first have to make sure that all
items and tabs are rendered perfectly the way they are supposed to be
before you can convert it into a table. Also, most typesetting programs do
not convert tables perfectly into HTML tables, so some manual tidying-up
is often required.
(If your html skills do not suffice to do it, don't worry
too much. I am used to clean up behind my helpers :-))
5. Pictures
I. Scanning
There are two different types of pictures:
a) lineart, consisting of b/w artwork without greyshades. These need
to be scanned as b/w bitmap (monochrome) at 300 dpi.
b) b/w or color photos: since these are printed as halftone screens, you
need to scan them as greyshades or color in 600 dpi at least! The
resulting files size is tremendous (up to 20 MB each) and requires
processing before it can be used (smoothing the dot pattern to receive a
continuous grey/color pattern, next reducing the picture size by at least
50%, saving in compressed jpg format). Please get in touch with us for
more informatiuon on how to do it.
2. Including in the document
Pictures should only in rare cases span the entire width of the
monitor (usually 800 pixels). It is better to have them not exceed much
more then 1/2 of the monitor width (i.e., 500 px), and to locate them on
the right margin with the text flowing around them (using align=right in
the img-tag). In case certain pictures require a high resolution, like
document facsimiles or highly detailed images, place a small version of
this picture in the document, and link it to the full version to be opend
in a separate window (using target="_blank" in the a-tag). This
accelerates the download time of the main document and gives the visitor
the option to see the huge picture file should s/he wish so.
Pictures without caption usually have a border size=1. Pictures with a
caption should be placed within a two-row, single column table,
right-align and with a border separating the caption optically from the
rest of the text (also, consider to use a different font for the caption).
3. HTML Converions
Make sure that the pictures are properly located, formatted and
sized after HTML-conversion (some converters screw it up!), that the
pictures linked to your document a) exists, b) have the proper name (case
sensitive!), c) have the size as given in the document (sometimes they are
much larger and need resizing. But test before saving the resized picture
that the loss of resolution/quality is not too bad!).
6. Pagebreaks and page numbers
If dealing with journal articles, remove all pagebreaks, page numbers and
headers/footers and make sure all text flows over the pagebreak as
intended.
If dealing with entire books, we want to keep the pagebreaks and numbers
(though not any other text in headers and footers) in order to enable
readers to refer to certain page numbers when quoting from our online
books. Since pagebreaks are not converted into HTML, we need to replace
them in the typesetting programm with a specific marker, e.g.
"[pagebreak]".
In Word, a pagebreak can be found with the special command
^m (^b finds section breaks)
After conversion to HTML, this marker is replaced by a
"<hr>" tag (horizontal ruler), to mark the page break.
Also, leave all page numbers where they are on the original! It is most
convenient to center page numbers on the page.
HTML Aftermath
There are two more items that require attention after
successful HTML conversion:
- Including Header and Footer Information
- Breaking up Books
1. Including Header and Footer Information
1. Header
a) meta tags and title tag
These tags at the very beginning of your HTML document should be properly
set (before breaking up a book!). If you do not want to enter it right
into the HTML code, use your HTML editor's "Properties" option
in the File menu (FrontPage):
<meta Name="description"
Content="[write a brief sentence describing the book]">
(Frontpage: File/Properties/Custom/User
Variables/Description)
<meta Name="keywords"
Content="[include a comma-separated list of terms covered by the
book. Some search engines use this. Can be omitted, however, since most
search engines take it from the content]">
(Frontpage: File/Properties/Custom/User Variables/Keywords)
<TITLE>[Write in here: author(s)'s name(s), title of
the book/article. In case of a journal, you might as well indicate the
journal's name (abbreviated if possible) and issue]</TITLE>
(Frontpage: File/Properties/general/Title)
b) additional items
Depending on the website your page is supposed to be posted at, you might
need to include more information at the top of your html page.
What follows, is what you ought to include when a file is intended to be
posted at www.vho.org. For other
websites, please ask:
After the <head> tag, include in the next line the following text
(setting the background appearance, link color patterns, default fonts
etc):
<link rel=stylesheet type="text/css"
href="http://vho.org/style.css">
Make sure that the <body> tag actually looks like
this, i.e, that all options in this tag are deleted. Then add the
following line after the <body> tag, which includes the www.vho.org
navigation bar in your document:
<script language="JavaScript"
src="http://vho.org/HeadScript.js"></script>
In case of periodicals, a second more simple navigation
bar for this periodical is given (see, e.g., at www.vho.org/F/j/RHR/1
or www.vho.org/VffG/1997/1).
Please contact us in case you are working on journal articles of an entire
series.
2. Footer
a) Linking
All documents need to be linked back to their table of contents, and to
following/preceeding pages of a series, if there are any. Hence, at the
end of each page, the text with links as given in the left column of the
following table should appear, separated
from the rest of the page on top and bottom by a <hr> (text is
preferably centered, and kept closely together by <br>):
| Link |
Description |
| Back
to Table of Contents |
Links back to table of contents of a
book or a certain issue of a journal |
| To
the next chapter |
Links to the next chapter/installment
of a book/journal article series (if there is any) |
| To
the previous chapter |
Links to the previous
chapter/installment of a book/journal article series (if there is
any) |
| Back
to archive |
Links back to a central archive of a
website (if there is any). In case of vho.org, it is www.vho.org/Archive.html |
a) additional items
Like the navigation bar on top of each page of www.vho.org,
some websites have an certain item at the bottom of each page. What has to
be entered, again depends on the website where the item is to be
published. For www.vho.org, the end of
every webpage looks like this, resulting in a last-update-date, a contact
address, and a link back to the top of the page:
<script language="JavaScript" src="http://www.vho.org/FootScript.js"></script>
</body>
</html>
2. Breaking up Books
Journal articles are always posted as one piece. Most books, however, are
too big to be posted in one single document, so we have to split them up
into several pieces.
Usually, the division of a book in several chapters according to its table
of contents will give a perfect guideline how/where to break it up. Make
as many copies of the HTML file of your book as there will be chapters,
plus one (for the separate table of contents), and rename them using short
numbered names (like index.html for the Title+TOC, and 1.html, 2.html,
3.html... for all subsequent sections. This makes linking easy).
Next, remove all the text before and after the section supposed to make up
the file (make sure not to delete the header and footer items). The
index.html-file should include the title page, imprint page and any other
page before the actual start of the book, as well as the Table of Contents.
The later should be a bullet/numbered list (nested, if required), and
every entry needs to be linked to the html-files of each section.
Finally, make sure to correct the links at the end of the each page
leading to the next/previous chapter of the book.
Well Done!
I know, this is a lot of work, but once used to it, it goes faster
than you think! And consider this: Most of the 1500+ documents posted on www.vho.org
where done basically by one person only over the last three years, as a
spare time job!
So if several volunteers can contribute only a fraction of this, I am sure
our websites will grow and become more and more complete and attractive!
Please feel free to contact me in case you have any
questions.
Thanks in advance
Germar Rudolf
chp@vho.org
|
Bevor wir anfangen... Die
nachfolgende Beschreibung dessen, was getan werden muß, um eine Textdatei
in ein HTML-Dokument umzuwandeln, versucht umfassend zu sein. Für
diejenigen, für die HTML etwas Neues ist, mag dies als zu viel
erscheinen. Wenn Sie also meinen, Sie seien damit überfordert, so sorgen
Sie sich nicht. Wir sind auch schon zufrieden mit Ihrer Hilfe, wenn diese
nur einen Teil der zu leistenden Arbeit umfaßt, wenn Sie also den Rest
anderen überlassen. So mögen Sie sich z.B. in der Lage sehen, Texte zu
scannen, mit einem OCR-Programm zu erkennen und danach mit einem
Textverarbeitungsprogramm Ihrer Wahl zu korrigieren (Word, WordPerfect,
Works...). Wenn Sie anschließend der Auffassung sind, die unten
beschriebene Vorbereitung zur HTML-Umwandlung sowie die sich daran
anschließenden Aufräumarbeiten in der umgewandelten Datei seien zu viel
für Sie, so können Sie an diesem Punkt aufhören und uns das
Textdokument mit all Ihren Korrekturen per Email zusenden. Wir erledigen
dann hier den Rest. Es wäre allerdings nett, wenn sie bei der Korrektur
Ihrer Textdatei zumindest die im unten angeführten Abschnitt "Grundregeln
der Textformatierung" aufgeführten Regeln beachteten.
Wir können seit Mitte 2002 auch PDF-Dateien in
HTML-Dateien umwandeln und Dank uppigem Plattenplatz auch im PDF-Format
aushängen!
Über HTML Um Texte für das Internet zu formatieren,
brauchen Sie keinerlei Kenntnisse über HTML (Hypertext Markup Language) zu
haben, vorausgesetzt, Sie befinden sich im Besitze einer Software, welche die
Arbeit für Sie erledigt. Ein wenig Grundlagenwissen aber kann dennoch von Nutzen
sein. HTML-Einführungen finden Sie bei der akademie.de
oder - in Englisch - von der HTML-Autorität
W3.org selbst. Haben Sie Interesse an den neuesten und umfassendsten
Experteninformationen, ebenfalls in Englisch und nichts für Anfänger, dann
klicken Sie hier. Verschiedene
Fassungen von HTML
HTML ist eine Internet-Sprache, welche sich
die Jahre hindurch gewandelt hat. Derzeit sind hauptsächlich zwei Versionen in
Gebrauch, um Texte für das Internet zu formatieren: Version 3.x. und Version
4.x.. Version 3.x. ist einfach konstruiert und wird von allen zur Verfügung
stehenden Browsern fast identisch dargestellt, vor allem von den beiden
gebräuchlichsten: Internet Explorer und Netscape Communicator.
Version 4.x. ist außerordentlich kompliziert und wird normalerweise nur in der neuesten Software wie Word 2000/XP/2003 verwendet. Die
Kompliziertheit hat nun ärgerlicherweise zur Folge:
a) Internet-Darstellungen
in verschiedenen Browsern können erheblich voneinander abweichen können. So mag es
geschehen, daß ein in HTML 4.x. geschriebener Text im Internet Explorer absolut
zufriedenstellend erscheint, in Netscape Communicator jedoch sehr seltsam
ausschaut und sogar eine Menge Fehlermeldungen verursacht, und umgekehrt.
b) Die hochgradige Formatierung funktioniert oft nicht richtig, und der
Text sieht am Ende völlig grausam und geschunden aus, insbesondere wenn
Tabellen vorkommen.
Derlei
Texte
sind also für das Internet nicht zu gebrauchen. Eine in HTML 4.x. formatierte
Internet-Seite muß für die einzelnen Browser in verschiedenen Fassungen
vorliegen. Und damit nicht genug, in HTML 4.x. formatierte Texte sind im
allgemeinen um Vieles größer als solche in HTML 3.x., weil erstere alle möglichen
komplizierten aber unnötigen (und machnmal nicht funktionierenden) Formatierungsinformationen enthalten.
Der langen Rede kurzer Sinn: Um Kompatibilität
unserer Seiten für die unterschiedlichen Browser zu gewährleisten, einen
sauberen Eindruck zu machen, fehlerfrei zu sein, und um zur
Platz- und Ladezeitersparnis die Größe unserer Dateien zu reduzieren, bitten wir
Sie dringend, in keinem Fall in HTML 4.x., sondern immer nur in HTML 3.x. zu
formatieren.
Niemals Word 2000/XP/2003 zum Konvertieren verwenden!!! Was bedeutet das? Der einfachste Weg zu einer
HTML-Seite ist, einen Text in Word zu laden, ihm dort die gewünschte Form zu
geben und ihn anschließend in HTML abzuspeichern. ABER!!!! Wenn Sie Word 2000/XP/2003 haben, landen Sie unweigerlich bei HTML 4.x., und das ist genau
das, was wir nicht wollen. Word 2000/XP/2003 haben leider keine Möglichkeit, dieses
Ergebnis zu verhindern (die Menue-Option: Tools/Options/General/Web
Options/General/"Rely on CSS..." unselected funktioniert nicht). Daneben
bietet Microsoft noch einen Programmzusatz für Word an, welcher
angeblich die HTML 4.x.-Formatierungen entfernen soll. Es werden aber nicht nur
die ungewünschten, sondern auch alle sonstigen Formatierungen beseitigt. Sie
enden also da, wo Sie angefangen haben, nämlich bei der fast formatlosen Text-Datei.
Zwei Möglichkeiten gibt es, dem Dilemma zu
entfliehen: Sie können, wie ich es auch tue, in der Word 2000 vorangehenden
Version Word 97 arbeiten, welche in HTML 3.2. formatiert. Oder Sie
kopieren Ihre mit OCR erkannten Texte sogleich in Ihren HTML-Editor wie z. B.
Microsoft Frontpage, um sie hier zu korrigieren und in die gewünschte Form zu bringen, da Frontpage HTML 4.x nur verwendet, wenn man es
ausdrücklich wünscht. (Es hat auch keinen Sinn, Text von Word 2000/XP/2003 in Frontpage zu kopieren,
da Sie dann den HTML 4.x-Code von Word mitnehmen.)
Ich habe keine Erfahrung mit anderen
Schreibprogrammen wie Works - hat es überhaupt einen HTML-Filter? - und Word
Perfect. Wenn Sie eines dieser Programme benutzen, um Ihre OCR-Texte zu
korrigieren, dann empfehle ich, erst einmal einen Probelauf zu machen.
Konvertieren Sie einen einfachen, kurzen Text in HTML, senden ihn an uns und wir
werden schauen, ob wir damit etwas anfangen können.
Falls Sie Word97 nicht haben oder nicht benutzen
wollen:
Sie können uns dennoch helfen, indem Sie die Datei in das notwendige
Format bringen bis zu dem Punkt unmittelbar vor der Konvertierung. Dann
senden Sie mir die Datei zurück. Ich konvertiere sie hier, was nur
Sekunden dauert, und schicke Sie zur Weiterbearbeitung zurück. Grundregeln
der Textformatierung HTML 3.x besitzt drei
Haupteigenschaften, die man immer im Hinterkopf behalten sollte:
- Alle Absätze werden durch eine Zeilenbreite voreinander getrennt.
- Mehrfache Leerzeichen werden immer nur als ein einfaches
Leerzeichen wiedergegeben.
- Tabulatoren existieren nicht und werden als Leerzeichen
wiedergegeben.
1) Absätze
Vermeiden Sie mehrfache Absatzendzeichen am Ende eines Absatzes! Es mag nett
aussehen, in einem Textverarbeitungsprogramm, wo Absätze normalerweise
ohne Zwischenraum aufeinander folgen, diese durch zwei Absatzendzeichen
voneinander abzusetzen. Aber da Absätze in HTML automatisch durch eine
Zeilenbreite voneinander getrennt werden, muß man dafür sorgen, daß ALLE
mehrfachen Absatzendzeichen (¶) im Dokument entfernt werden! (Sonst sind
sie drei Zeilen breit von einander entfernt!)!
(beim Suchen/Ersetzen in Word ist dies das Sonderzeichen ^p,
bei "Ansicht nichtdruckbarer Zeichen", wird es als ¶ angezeigt.
Ersetzen sie zwei solcher Zeichen - ^p^p - solange durch eines - ^p -, bis
keine doppelten Absatzendzeichen mehr zu finden sind.)
Wenn man zwei Absätze ohne Zwischenraum zusammenhalten will (wie diese
hier), so darf man nicht das normale Absatzendzeichen verwenden (¶,
eingefügt durch Drücken der Return-Taste), sondern einen weichen
Zeilenumbruch (Einfügen in
Word durch Shift+Return)
(beim Suchen/Ersetzen in Word ist dies das Sonderzeichen ^l,
bei "Ansicht nichtdruckbarer Zeichen", wird es als 8
angezeigt,
in HTML, ist dies <br> (break) statt <p> (paragraph))
2) Mehrfache Leerzeichen
Beseitigen Sie durch Suchen und Ersetzen alle mehrfachen
Leerzeichen, indem Sie zwei Leerzeichen durch ein einfaches ersetzen.
Wiederholen Sie die Prozedur so lange, wie in Ihrem Schreibprogramm
doppelte Leerzeichen zu finden sind. Leerzeichen sollten niemals verwendet
werden, um Texte einzurücken, zu zentrieren oder Tabellen zu erstellen!
Dafür gibt es entsprechende Funktionen in Textverarbeitungsprogrammen!
Mehrfache Leerzeichen - selbst eine Million davon - werden von allen
Browsern als ein einzelnes Leerzeichen dargestellt!
3) Tabulatoren
HTML kann keine Tabulatoren darstellen. Sie werden statt dessen als Leerzeichen wiedergegeben. Ersetzen Sie aber nicht einfach alle
Tabulatoren im Text durch Leerzeichen, sondern kontrollieren Sie zuerst,
ob das Layout nicht geändert werden muß. Sie müssen daher im Text nach
Tabulatoren suchen (in Word Sonderzeichen ^t) und in jedem Fall prüfen,
ob Sie eine andere Formatierung verwenden müssen
a) Wenn Tabulatoren verwendet werden, um eine Tabelle zu erstellen, so
sollten diese Absätze mit der entsprechenden
Text-zu-Tabelle-Umwandlungsoption Ihres Programms in eine Tabelle
umgewandelt werden. (Falls nötig, sortieren Sie die Tabulatoren und den
Text, bevor Sie die Umwandlung machen, damit die Tabelle das gewünschte
Format bekommt)
b) Wenn Tabulatoren verwendet werden, um numerierte oder markierte Listen zu
erstellen, so ersetzen Sie diese Listen mit den automatischen numerierten
oder markierten Listen, wie sie jedes Textverarbeitungsprogramm anbietet.
Diese werden in entsprechende numerierte/markierte Listen in HTML
umgewandelt.
(<ul> für markierte Listen, <ol[
type="..."]> für numerierte Listen, verschachtelt oder nicht,
mit unterschiedlichem Start oder nicht, vgl. die Einführung
in HTML)
In allen anderen Fällen sollten Tabulatoren durch Leerzeichen
ersetzt werden (in Word "^t" mit " "). (Oder habe ich
was übersehen?)
Einzelheiten des Formatierens
Folgende Einzelheiten müssen beim Formatieren
eines Textes in HTML berücksichtigt werden:
- Einfacher Text
- Überschriften
- End- und Fußnoten
- Tabellen
- Bilder
- Seitenumbrüche und
Seitenzahlen
1. Einfacher Text
Einfacher Text sollte ohne Besonderheiten formatiert werden. Falls Ihr
Textverarbeitungsprogramm ein bestimmtes Buchstabenformat für den
voreingestellten, normalen Absatzstil hat, so nutzen Sie bitte diesen für
einfachen Text. Bei der Konvertierung wird dem Text dadurch in der Datei
selbst keine Formatcharakteristik zugewiesen ("default", die
Definition von Buchstabenart und Größe erfolgt durch die
Browsereinstellung des Besuchers der Webseite). Auf diese Weise wird die HTML-Dateigröße
gering gehalten, und der Besucher kann selbst bestimmen, wie die Seite
aussieht, indem er die Einstellung seines Browsers ändert.
2. Überschriften
Überschriften sollten in größerer Schrift dargestellt werden als der normale
Text. Für eine Gliederung der Überschriften sollten diese je nach Stellung von
unterschiedlicher Schriftgröße sein. (Buchtitel haben normalerweise die Größe 6
oder 7, Kapitelüberschriften 5, Unterüberschriften in Kapiteln 4, die
nächst-niedrige Stufe 3 (Normalgröße), hervorgehoben durch Hervorhebungen
wie Schrägdruck, Unterstreichungen, Fettdruck.)
3. End- und Fußnoten
Bei Büchern lassen Sie die Anmerkungen, wie sie sind, am Seiten-, Kapitel- oder
am Buchende. Wenn Sie die Plazierung der Anmerkungen ändern, entspricht
der online-Text nicht mehr dem gedruckten Text und es kann nicht ordnungsgemäß daraus zitiert werden.
Fußnoten am Seitenende sollten eine Schriftgröße kleiner als der normale Text
sein, um sich optisch von ihm abzuheben. Falls die Anmerkungen numeriert sind,
können Sie die HTML-Listenfunktion benutzen.
(Benutzen Sie <ol start=x> Funktion, um eine neue Liste
mit der Nummer
x größer als eins zu beginnen)
Bei Artikeln müssen die Anmerkungen an das Artikelende plaziert werden, und,
wenn es Ihnen möglich ist, verlinken Sie die Zahlen im Text mit den Anmerkungen,
so daß der Leser von der Zahl zur Anmerkung wechseln kann.
(Word2003 macht das automatisch; Für Word 97 habe ich einen netten Word-Makro, der das automatisch
macht, falls jemand ihn nutzen möchte. Wir bitten Sie allerdings nicht,
diese Verlinkung auch mit Büchern zu machen, da viele Bücher eine
nichtnumerische oder nichtstetige Numerierung haben, wodurch das Verlinken
sehr kompliziert wird.)
4. Tabellen
Tabellen sind ein Stachel im Fleisch, da die meisten OCR-Progamme die einzelnen
Zeilen mit Hilfe von Tabulatoren ohne System irgendwohin plazieren. Sie müssen
dem Text erst die gewünschte Form geben, ehe Sie ihn in eine Tabelle Ihres
Schreibprogrammes konvertieren können. Und damit nicht genug: Auch die
Konvertierung von Tabellen in HTML ist meist nicht fehlerlos, so daß auch hier
noch einmal Nacharbeit erforderlich ist.
(Wenn Ihre HTML-Kenntnisse für solche Aufräumarbeiten nicht
ausreichen, machen Sie sich bitte keine Gedanken. Ich bin es gewohnt, hinter
meinen Helfern aufzuräumen :-))
5.
Bilder
I. Scannen
Es gibt zwei Arten von Bildern:
a) Strichzeichnungen, welche aus schwarz-weiß Zeichnungen ohne Grauschattierungen bestehen. Diese müssen
als schwarz-weiß Bitmap (Monochrom) mit 300 dpi gescannt werden (dots per
inch = Punkte pro Zoll).
b) schwarz-weiß oder Farbfotos: da diese Bilder gerastert sind (Punkmatrix),
müssen diese als Grauschattierung oder Farbbilder mit einer Auflösung
von mindestens 600 dpi gescannt werden! Die sich daraus ergebende
Dateigröße ist enorm (je bis zu 20 MB) und bedarf der Bearbeitung, bevor
das Bild verwendet werden kann (Glätten der Punktmatrix zu einem
kontinuierlichen Grau-/Farbmuster, anschließend Reduktion der Bildgröße
um mindestens 50%, und Abspeichern im komprimierten jpg-Format). Bitte
nehmen Sie mit uns Kontakt auf bezüglich weiterer Informationen.
2. Einfügen in die Dokumente
Nur in seltenen Fällen sollten Bilder die gesamte Bildschirmbreite ausfüllen,
normalerweise 800 Pixel (=Lichtpunkte Ihres Monitors). Besser ist es, wenn ein Bild
nicht viel mehr als den halben
Bildschirm mit beispielsweise 500 Pixel einnimmt und am rechten
Bildschirm-Rand plaziert wird, wobei der Text drum herum fließt. (durch
Verwendung des Befehls align=right im img-tag). Falls
ein Bild eine hohe Auflösung verlangt, wie z. B. Faksimiles von
Dokumenten oder besonders detailreiche Bilder, dann fügen Sie eine kleine
Version des Bildes in den Text ein und geben dem Bild einen Link zu einer
größeren Fassung, die sich in einem vom Text getrennten Fenster öffnet (durch
Benutzung des Befehls target="_blank" im a-tag). Ein solches Verfahren verkürzt die Ladezeit des
Hauptdokumentes und stellt es dem Leser frei, in welcher Form er das Bild
studieren möchte.
Bilder ohne Unterschrift haben für gewöhnlich eine Randdicke von size=1. Bilder
mit Bildunterschriften sollten
als eine zwei-reihige, einspaltige Tabelle dargestellt werden, rechts ausgerichtet
(align=right) und
mit einem Rahmen versehen, um die Unterschrift optisch vom Text abzusetzen. (Überdies
ist zu überlegen, die Unterschrift in einer anderen Schriftart zu setzen.)
3. HTML Konvertierung
Nach der Konvertierung der Bilder in HTML sollten Sie noch einmal prüfen,
ob diese richtig plaziert, formatiert und größenmäßig angepaßt sind (das
klappt beim Konvertieren oft nicht richtig),
sodann, ob das im Text plazierte Bild auch wirklich erscheint und den
richtigen Namen hat (Groß-/Kleinschreibung beachten!) und ob ein dem Text eingefügtes
Bild nicht doch zu groß geworden ist und verkleinert werden muß. Bevor Sie
aber ein verkleinertes Bild abspeichern, sollten Sie wiederum testen, ob durch
die Verkleinerung nicht die Qualität allzusehr gelitten hat.
6. Seitenumbrüche und Seitenzahlen
Bei Zeitschriftenartikeln können Sie Seitenumbrüche, Seitenzahlen und
Kopf-/Fußzeilen entfernen, so daß der Text fortlaufend erscheint.
Bei Büchern sollten Seitenumbrüche und Seitenzahlen erhalten bleiben
(allerdings nicht der sonstige Text in Kopf-/Fußzeilen),
damit aus dem online-Buch ordnungsgemäß zitiert werden kann. Da Seitenumbrüche
nicht in HTML konvertiert werden, müssen sie im Schreibprogramm durch eine
spezielle Markierung ersetzt werden, z. B. "[pagebreak]".
(Ein Seitenumbruch kann in Word mit
dem Sonderbefehl ^m gefunden werden (^b findet Absatzumbrüche)
Nach der Konvertierung in HTML muß diese Markierung durch einen horizontalen Strich ersetzt werden "<hr>" (= horizontal
ruler), um den Seitenumbruch zu markieren.
Die Seitenzahlen lassen Sie, wo sie im Buch sind. Es ist zudem angemessen, Seitenzahlen zu zentrieren.
HTML Nachspiel
Es gibt zwei weitere Dinge, die nach erfolgreicher
HTML-Konvertierung unserer Aufmerksamkeit bedürfen:
- Einfügen von Kopfzeilen- und Fußzeilen-Infos
- Aufspaltung von Büchern
1.
Einfügen von Kopfzeilen- und Fußzeilen-Infos
1. Kopfzeile
a) meta tags und title tag
Diese Tags zu Beginn Ihres HTML Dokuments sollten ordnungsgemäß ausgeführt
sein (bevor ein Buch aufgeteilt wirde!). Wenn Sie es nicht direkt in den
HTML-Code einfügen wollen, benutzen Sie die
"???Eigenschaften"-Option Ihres use your HTML-Editors im
Datei-Menü menu (FrontPage):
<meta Name="description"
Content="[Ein kurzer Satz, der das Buch beschreibt]">
(Frontpage: Datei/Eigenschaft???/Custom/User
Variables/Description???)
<meta Name="keywords"
Content="[Komma-separierte Liste von Begriffen, die im Buch behandelt
werden. Einige Suchmotoren nutzen dies. Es kann aber ausgelassen werden,
da die meisten Suchmotoren den Text-Inhalt selbst absuchen]">
(Frontpage: Datei/Eigenschaft???/Custom/User
Variables/Keywords???)
<TITLE>[Einfügen: Autor(en) Name(n), Titel des
Buches/Artikels. Im Fall von Zeitschriftenartikeln sollte man auch den
Zeitschriftentitel angeben (möglichst abgekürzt) und die Ausgabe]</TITLE>
(Frontpage: Datei/Eigenschaft???/general/Title)
b) weitere Dinge
Abhängig von der Website, auf der ihre Seite veröffentlicht werden soll,
mag es nötig sein, weitere Informationen am Anfang des HTML-Dokuments
einzufügen.
Das Nachfolgende ist, für Dokumente gedacht, die auf www.vho.org
veröffentlicht werden sollen. Für andere Webseiten fragen sie bitte dort
nach:
Nach dem <head> Tag fügen sie die folgende Zeile ein (dies
definiert den Hintergrund, Link-Farbverhalten, default fonts usw.):
<link rel=stylesheet type="text/css"
href="http://vho.org/style.css">
Sorgen Sie dafür, daß der <body> Tag tatsächlich
so aussieht, d.h. das alle Optionen und Befehle darin gelöscht sind. Dann
fügen sie in der Zeile nach dem <body> Tag folgenden Text ein,
durch den die Menüleiste von www.vho.org
in Ihr Dokument eingefügt wird:
<script language="JavaScript"
src="http://vho.org/HeadScript.js"></script>
Im Fall von Periodika wird eine zweite, einfachere
Menüleiste dieses Periodikums eingefügt (siehe z.B. www.vho.org/F/j/RHR/1
or www.vho.org/VffG/1997/1).
Bitte fragen Sie uns, falls Sie an Zeitschriftenartikeln einer ganzen
Serie arbeiten.
2. Footer
a) Verlinkung
Alle Dokuments müssen mit ihrem Inhaltsverzeichnis verlinkt werden sowie
mit folgenden/Vorhergehenden Seiten einer Serie, so es solche gibt. Am
Ende einer jeden Seite sollte daher der in der linken Spalte der folgenden
Tabelle wiedergegebene Text mit Links auftauchen, oben und unten abgesetzt
vom Rest der Seite durch eine Linie <hr> (den Text am besten
zentrieren und durch <br> eng zusammen halten):
| Link |
Bexchreibung |
| Zurück
zum Inhaltsverzeichnis |
Link zurück zum Inhaltsverzeichnis eines
Buches oder einer bestimmten Ausgabe einer Zeitschrift |
| Zum
nächsten Abschnitt |
Link Zum nächsten Abschnitt/Teil eines
Buches/einer Zeitschriftenartikelserie (falls gegeben) |
| Zum
vorhergehenden Abschnitt |
Link zum
vorhergehenden Abschnitt/Teil eines Buches/einer
Zeitschriftenartikelserie (falls gegeben) |
| Zurück
zum Archiv |
Link zurück zum Archiv der Website (falls
gegeben). Im Fall von vho.org ist dies www.vho.org/Archive.html |
a) weitere Dinge
Ähnlich der Menüleiste auf jeder Seite von www.vho.org,
so haben einige Websites auch bestimmte Dinge, dies sich am Ende jeder
Seite befinden. Dies hängt wieder ganz von der Website ab, wo das
Dokument veröffentlicht werden soll. Für www.vho.org
sieht das Ende jeder Seite wie folg aus, resultierend in der Angabe der
letzten Aktualisierung, einer Kontaktadresse und einem Link zurück zum
Anfang der Seite:
<script language="JavaScript" src="http://www.vho.org/FootScript.js"></script>
</body>
</html>
2. Das Aufteilen der Bücher
Zeitschriftenartikel werden, wie schon
erwähnt, als Ganzes ins Netz gestellt. Die meisten Bücher aber sind für eine
einzelne Datei zu umfangreich, sie müssen in Teile zerlegt werden.
Dabei bietet sich an, die Kapiteleinteilung zu übernehmen. Fertigen Sie einfach
so viele HTML-Kopien des Buches an, wie es Kapitel hat, zuzüglich einer Kopie
(für das Inhaltsverzeichnis).
Dann benennen Sie die Dateien um, indem sie ihnen kurze, durchnumerierte Namen
geben (wie index.html, für Titelseiten+Inhaltsverzeichnis, und 1.html, 2.html,
3.html... für alle nachfolgenden Abschnitte. Das erleichtert das
Verlinken.)
Sodann löschen Sie in jeder Datei alles, was nicht zum gegebenen
Abschnitt gehört. Achten Sie nur darauf, daß die jeweiligen Kopf- und
Fußzeilen nicht beseitigt werden. Die Index-Datei sollte die Titelseite des
Buches, das Impressum und alle weiteren Seiten vor dem eigentlichen Buchanfang
sowie zuletzt das Inhaltsverzeichnis enthalten. Das Inhaltsverzeichnis
sollte als Liste
dargestellt werden (verschachtelt, falls nötig), in welcher jeder Eintrag mit dem dazugehörigen Kapitel
verlinkt ist. Schließlich müssen am Ende einer jeden Datei Links angebracht
werden, um zum nächsten oder zurück zum vorherigen Kapitel zu gelangen.
Gratulation!
Ich weiß, wieviel Arbeit es ist, aber, wenn man etwas Routine hat, geht es doch
schneller, als man am Anfang denkt. Die meisten der mehr als 1500 Dokumente in
www.vho.org sind in den letzten drei Jahren von
nur einer einzigen Person in ihrer Freizeit ins Netz gebracht worden.
Wenn unsere freiwilligen Mitarbeiter nur einen Bruchteil dieser Zeit aufbringen,
wird unsere Seite noch größer, vollständiger und attraktiver werden und
sie wird besser noch als bisher ihren Sinn erfüllen.
Wenn Sie Fragen haben, zögern Sie nicht, uns
anzusprechen.
Danke für alle vor Ihnen liegende Mühe!
Germar Rudolf
chp@vho.org
|