Sprachstatistik
Sprachstatistik kann auf zweierlei Weise verstanden werden: Einerseits als die Statistik der Sprachen – in diesem Sinne auch als Sprachenstatistik bezeichnet –,[1] andererseits als jede Art statistischer Untersuchung beliebiger sprachlicher Eigenschaften oder Gegenstände und ihrer Veränderungen. Im zweiten Sinn ist sie auch als Statistische Linguistik oder Linguostatistik bekannt. Noch weiter gespannte Ziele verfolgt die Quantitative Linguistik, nämlich eine Sprachtheorie zu entwickeln, zu der beispielsweise das Menzerathsche Gesetz und das Zipfsche Gesetz gehören.
Aufgaben und Ziele der Sprachstatistik
Sprachstatistische Erhebungen dienen in vielen Fällen praktischen oder auch wissenschaftlichen Zwecken. Wenn man zum Beispiel weiß, wie häufig Buchstaben in einer Sprache vorkommen, kann man verschlüsselte Texte lesbar machen. Bei stilistischen Untersuchungen (Quantitative Stilistik) geht es darum, Besonderheiten des Sprachgebrauchs einzelner Autoren, Textklassen, Epochen oder verschiedener Kommunikationsbereiche (wie den Stil der Presse und Publizistik oder der Alltagssprache) zu charakterisieren. Wendet man statistische Methoden auf literarische Texte an, so betreibt man nach einem Vorschlag von Fucks (1968: 77, 88) Quantitative Literaturwissenschaft. Die Möglichkeiten der Statistik bei Stiluntersuchungen skizziert David Crystal (1993: 67). Auch für die Feststellung, wie schwierig ein Text gestaltet ist, kann die Sprachstatistik wesentliche Hilfe leisten. So dienen die Lesbarkeitsindizes dazu, die Lesbarkeit, das heißt den Schwierigkeitsgrad von Texten, zu messen. Auch der Wortschatz der Sprachen ist unter dem Begriff Lexikostatistik in vielfältiger Weise Gegenstand der Sprachstatistik: Hier geht es unter anderem um die Erstellung von Häufigkeitswörterbüchern und um die Verfallsraten, denen der Wortschatz unterliegt (Glottochronologie). Die Erhebung der Häufigkeit von Wörtern bildet außerdem eine wesentliche Voraussetzung für die Erstellung von Grundwortschätzen und damit für die Sprachdidaktik. Die Inhaltsanalyse bedient sich quantitativer Verfahren (Quantitative Inhaltsanalyse), um herauszufinden, welche Themen eine wie große Beachtung finden.[2]
Ganz praktischen Zwecken diente auch die Stichometrie in der Antike: Zum Beispiel wurden Textlängen bestimmt, um eine Grundlage für die Abrechnung des Schreiberlohns zu haben.[3]
Es gibt also viele Einsatzmöglichkeiten für die Sprachstatistik. Oft geht es aber auch nur um die Befriedigung der Neugier: Man will einfach wissen, was wie häufig vorkommt oder wie seine Häufigkeiten sich mit der Zeit ändern, ohne dass damit unmittelbar weitergehende Ziele verfolgt werden. In diesem Zusammenhang kann man auf die immer wieder gestellte Frage verweisen, wie umfangreich der Wortschatz des Deutschen oder auch der anderer Sprachen, und genau so, wie umfangreich der Wortschatz bestimmter Autoren sei.[4]
Zur Geschichte
Häufigkeitsuntersuchungen zu sprachlichen Phänomenen reichen bis in die indische und griechische Antike zurück, wo unter anderem kombinatorische Überlegungen zur Bildung sprachlicher Einheiten angestellt wurden, eine Tradition, die sich über viele Jahrhunderte erhielt.[5] Eine der Fragen, die hier unter anderen von Leibniz behandelt wurden, war, wie viele Wörter sich aus einem Alphabet mit einer bestimmten Anzahl von Buchstaben bilden lassen.[6] Später folgten Wort-, noch später Lautstatistiken und manches andere mehr. Neben diesen auf die Untersuchung von Sprache/Sprachen konzentrierten Arbeiten folgten auch solche im Dienste von Nachbardisziplinen. Im 19. Jahrhundert wurden seit den 30er Jahren immer wieder Lautstatistiken erstellt, um die Stenographie zu optimieren. Der Literaturwissenschaft dienen vielfältige Ansätze, zum Beispiel Untersuchungen mit Mitteln der Stilometrie zur Identifizierung anonymer Autoren. Auch Arbeiten zur ästhetischen Qualität literarischer Werke sind zu nennen: der Psychologe Karl Groos veröffentlichte mit „Die akustischen Phänomene in der Lyrik Schillers“ (1910) eine Arbeit, in welcher er eine sprachstatistische Untersuchung präsentierte.[7]
Sprachstatistik des Deutschen
Zur Sprachstatistik des Deutschen: Vielfältige Übersichten zur Sprachstatistik des Deutschen (Buchstaben- und Lauthäufigkeiten, Grammatik, Wortschatz) findet man bei Helmut Meier (1967). Etliche Daten zum Deutschen und seinen Entwicklungstendenzen enthalten die entsprechenden Werke von Braun (1998)[8] und Sommerfeldt (1988).[9] Einige Daten stellen auch König (2005)[10] und Duden. Die deutsche Rechtschreibung (2017)[11] zusammen. Zu vielen Themen (Häufigkeit von Morph-, Satz-, Silben- und Wortlängen; Änderung der Häufigkeiten beim Individuum und in der Sprachgeschichte; Häufigkeit von Wortarten und viele andere Aspekte) finden sich in Untersuchungen zur Quantitativen Linguistik ebenfalls statistische Daten vor allem zum Deutschen, aber auch zu etlichen anderen Sprachen.[12]
Statistische Grundlagen
Die statistischen Grundlagen kann man den Handbüchern der vielen wissenschaftlichen Disziplinen (Psychologie, Soziologie, Wirtschaftswissenschaften, …) entnehmen, die sich in ihrer Forschung auch auf Statistik stützen. Es gibt aber auch Werke, die speziell für Linguisten verfasst sind oder zumindest schwerpunktmäßig linguistische Themen berücksichtigen. So stellen Altmann (1995), von Essen (1979), Hoffmann & Piotrowski (1979), Nikitopoulos (1973), Schlobinski (1996) und Wimmer & Altmann (1999) für unterschiedliche Ansprüche statistische (und z. T. wissenschaftstheoretische) Grundlagen für Linguisten dar.
Siehe auch
Literatur
- Pavel M. Alekseev, V. M. Kalinin, Rajmund G. Piotrowski: Sprachstatistik: mit zahlreichen Tabellen und Schemata im Text, übersetzt von einem Kollektiv unter Leitung von Lothar Hoffmann. Fink, München/Berlin 1973/ Akademie-Verlag Berlin 1973.
- Gabriel Altmann: Statistik für Linguisten. Wissenschaftlicher Verlag Trier, Trier 1995, ISBN 3-88476-176-5.
- Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4.
- Peter Braun: Tendenzen in der deutschen Gegenwartssprache. Sprachvarietäten. 4. Auflage. Kohlhammer, Stuttgart/ Berlin/ Köln 1998, ISBN 3-17-015415-X, S. 103. (Das Buch enthält statistische Angaben zu vielen sprachlichen Merkmalen des Deutschen)
- David Crystal: Die Cambridge Enzyklopädie der Sprache. Übersetzung und Bearbeitung der deutschen Ausgabe von Stefan Röhrich, Ariane Böckler und Manfred Jansen. Campus Verlag, Frankfurt/ New York 1993, ISBN 3-593-34824-1. Kapitel: Die statistische Struktur der Sprache. S. 86–87.
- Otto von Essen: Allgemeine und angewandte Phonetik. 5., neubearbeitete und erweiterte Auflage. Akademie-Verlag, Berlin 1979.
- Wilhelm Fucks: Nach allen Regeln der Kunst. Diagnosen über Literatur, Musik, bildende Kunst – die Werke, ihre Autoren und Schöpfer. Deutsche Verlags-Anstalt, Stuttgart 1968.
- Lothar Hoffmann, Rajmund G. Piotrowski: Beiträge zur Sprachstatistik. VEB Verlag Enzyklopädie, Leipzig 1979.
- Emmerich Kelih: Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft. Kovač, Hamburg 2008, ISBN 978-3-8300-3575-6. (Zugleich Dissertation Graz, 2007. Ausführliche Darstellung des Beitrags der russischen Sprach- und Literaturwissenschaft von der Mitte des 19. Jahrhunderts an, die für die Entwicklung der quantitativen/statistischen Linguistik und Literaturwissenschaft besonders wichtig ist.)
- Sebastian Kempgen: Russische Sprachstatistik. Systematischer Überblick und Bibliographie. Sagner, München 1995, ISBN 3-87690-617-2.
- Reinhard Köhler: Bibliography of Quantitative Linguistics. John Benjamins, Amsterdam 1995, ISBN 90-272-3751-4.
- Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, ISBN 3-11-015578-8.
- Helmut Kreuzer (Hrsg.), Rul Gunzenhäuser (Hrsg.): Mathematik und Dichtung. Versuche zur Frage einer exakten Literaturwissenschaft., Nymphenburger, München 1965, 1967, 1969, 4., durchgesehene Auflage 1971, ISBN 3-485-03303-0.
- Helmut Meier: Deutsche Sprachstatistik. 2., erweiterte und verbesserte Auflage. Olms, Hildesheim 1967, 1978, ISBN 3-487-00735-5. (1. Aufl. 1964)
- Charles Muller: Einführung in die Sprachstatistik. Hueber, München 1972.
- Pantelis Nikitopoulos: Sprachstatistik. In: Hans Peter Althaus, Helmut Henne, Herbert Ernst Wiegand (Hrsg.): Lexikon der germanistischen Linguistik. 2., vollständig neu bearbeitete und erweiterte Auflage. Niemeyer, Tübingen 1980, ISBN 3-484-10392-2, S. 792–797.
- Pantelis Nikitopoulos: Statistik für Linguisten. Ein methodischer Beitrag. Narr, Tübingen 1973.
- Peter Schlobinski: Empirische Sprachwissenschaft. Westdeutscher Verlag, Opladen 1996, ISBN 3-531-22174-4.
- Gejza Wimmer, Gabriel Altmann: Thesaurus of univariate discrete probability distributions. Stamm, Essen 1999, ISBN 3-87773-025-6.
Zeitschrift
- Statistical methods in linguistics (SMIL), Språkförlaget Skriptor, Stockholm, 1961–1978.
Weblinks
Einzelnachweise
- Die Bezeichnung Sprachstatistik findet man unter anderem bei: Emil Brix: Die Umgangssprachen in Altösterreich zwischen Agitation und Assimilation. Die Sprachstatistik in den zisleithanischen Volkszählungen 1880 bis 1910. Böhlau, Wien 1982, ISBN 3-205-08745-3. (Zugleich Dissertation Wien 1979)
- Klaus Merten: Inhaltsanalyse. Einführung in Theorie, Methode und Praxis. 2., verbesserte Auflage. Westdeutscher Verlag, Opladen 1993, ISBN 3-531-11442-5.
- Gero von Wilpert: Sachwörterbuch der Literatur (= Kröners Taschenausgabe. Band 231). 8., verbesserte und erweiterte Auflage. Kröner, Stuttgart 2001, ISBN 3-520-23108-5.
- Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4, Kapitel: Statistische Betrachtungen zum Wortschatz, S. 13ff.
- N. L. Biggs: The roots of combinatorics. In: Historia Mathematica. 6, 1979, S. 109–136.
- Zu Leibniz, Dissertatio de arte combinatoria. (1666) siehe: Karl-Heinz Best: Gottfried Wilhelm Leibniz (1646–1716). In: Glottometrics. 9, 2005, S. 79–82 (PDF Volltext); Eberhard Knobloch: Die mathematischen Studien von G. W. Leibniz zur Kombinatorik. Auf Grund fast ausschließlich handschriftlicher Aufzeichnungen dargelegt und kommentiert. Franz Steiner Verlag, Wiesbaden 1973.
- Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4, Kapitel: Entwicklung der Quantitativen Linguistik (QL), S. 7ff.
- Peter Braun: Tendenzen in der deutschen Gegenwartssprache. Sprachvarietäten. 4. Auflage. Kohlhammer, Stuttgart/ Berlin/ Köln 1998, ISBN 3-17-015415-X, passim.
- Karl-Ernst Sommerfeldt (Hrsg.): Entwicklungstendenzen in der deutschen Gegenwartssprache. VEB Bibliographisches Institut, Leipzig 1988, ISBN 3-323-00169-9, S. 193–243.
- Werner König: dtv-Atlas Deutsche Sprache. 15., durchgesehene und aktualisierte Auflage. dtv, München 2005, ISBN 3-423-03025-9, S. 114–119.
- Duden. Die deutsche Rechtschreibung. 27., völlig neu bearbeitete und erweiterte Auflage. Dudenverlag, Berlin 2017, ISBN 978-3-411-04017-9, Kapitel: Sprache in Zahlen, Seite 148–159.
- Vgl. http://wwwuser.gwdg.de/~kbest/einfueh.htm