Arvi Hurskainen
Arvi Johannes Hurskainen (s. 25. tammikuuta 1941 Kitee) on suomalainen Afrikan kielten ja kulttuurien sekä kielitieteen tutkija. Hurskainen työskenteli Afrikan tutkimuksen professorina Helsingin yliopiston Aasian ja Afrikan kielten ja kulttuurien laitoksella vuosina 1989–2006. Kiinnostus bantukieliin, erityisesti swahilin kieli ja sen murteiden tutkimukseen, johdatti Hurskaisen kielten tutkimuksen ja erityisesti kieliteknologian pariin. Vuodesta 1985 alkaen hän on keskittynyt yhä enemmän tietokoneella suoritettuun kielen kuvaukseen ja analysointiin. Alkaen eläkkeelle jäämisestään vuonna 2006 hän on paneutunut kieliteknologiaan kokopäiväisesti.
Arvi Hurskainen | |
---|---|
![]() Arvi Hurskainen vuonna 2002 |
|
Henkilötiedot | |
Syntynyt | 25. tammikuuta 1941 Kitee |
Kansalaisuus | suomi |
Koulutus ja ura | |
Instituutti | Helsingin yliopisto |
Tutkimusalue | kielitiede kieliteknologia |
Tunnetut työt |
SALAMA, kieliteknologian kehitysympäristö; Helsinki Corpus of Swahili 2.0; Nordic journal of African Studies, aloitteentekijä ja ensimmäinen päätoimittaja. |
Elämäkerta
Vanhemmat maanviljelijä Eino Hurskainen (1906–1978) ja Siviä o.s. Pekkinen (1909–1982). Valmistui ylioppilaaksi Joensuun lyseosta vuonna 1960. Valmistui teologian maisteriksi Helsingin yliopistosta vuonna 1964 ja vihittiin papiksi 1965 Mikkelin tuomiokirkossa.[1] Valmistui filosofian lisensiaatiksi Helsingin yliopistosta 1980 ja väitteli filosofian tohtoriksi vuonna 1984 antropologiaa käsittelevällä teoksella Cattle and Culture. The Structure of a Pastoral Parakujo Society.[2] Ennen täystoimiseen tutkimustyöhön siirtymistään toimi vuosina 1967–1976 lähetystyössä Tansaniassa Suomen Lähetysseuran palveluksessa.
Työhistoria opetuksen ja tutkimuksen parissa
Vuonna 1976 Arvi Hurskainen toimi tutkijana Suomen Akatemian rahoittamassa Jipemoyo-projektissa Tansaniassa, Länsi-Bagamoyon piirikunnassa ja vuodet 1977–1980 Suomen Lähetysseuran palveluksessa Helsingissä.
Vuonna 1981 Hurskaisesta tuli Helsingin yliopiston bantukielten vanhempi lehtori, mitä työtä hän teki vuoteen 1989. Välillä hän kuitenkin toimi vuoden ajan Tumaini-yliopistossa Tansaniassa vuosina 1984–1985. Vuosina 1989–1991 hän toimi Helsingin yliopiston Afrikan kielten ja kulttuurien vt. professorina, ja vuodesta 1991 alkaen professorina. Aasian ja Afrikan kielten ja kulttuurien laitoksen johtajana Hurskainen toimi vuodet 1999–2001. Hän jäi eläkkeelle vuonna 2006.
Hän johti vuosina 1988–1992 ulkoministeriön rahoittamaa tutkimushanketta Swahili Language and Folklore, johon osallistui myös useita tutkijoita Swahilin tutkimusinstituutista Dar-es-Salaamin yliopistosta. Tutkimusyhteistyön tuloksena syntyi äänitetty puhekorpus DAHE (Dar-es-Salaam - Helsinki), joka on myöhemmin digitoitu ja jonka saattaminen Internetiin on valmisteilla.
Vuodesta 1967 vuoteen 1985 Hurskainen työskenteli yhteensä kahdeksan vuoden ajan tutkimus- ja opetustyössä eri osissa Tansaniaa, muun muassa Tukuyussa, Njombessa ja Arushassa Tumaini-yliopistossa, Makumiran kampuksella.[3]
Viranhoidon lomassa Hurskainen on saanut tutkimustyötä varten virkavapauksia. Itä-Afrikkaan suuntautuneet tutkimusmatkat ovat olleet mahdollisia pääasiassa Suomen Akatemian ja Suomen opetusministeriön sekä Suomen ulkoministeriön taloudellisella tuella.
Vuonna 2008 Hurskainen työskenteli vierailevana professorina Makerere-yliopistossa Ugandassa, Kampalassa. Hän piti muun muassa intensiivikursseja kieliteknologiasta ja ohjasi kieliteknologian alan väitöskirjatöitä. Väitöskirjaohjaus jatkui Suomesta käsin aina vuoteen 2013 saakka.
Hurskainen on tehnyt uransa aikana laajaa kansainvälistä yhteistyötä eri yliopistojen kanssa paitsi Afrikassa myös EU:ssa. EU-yhteistyön pohjana oli Afrikan tutkimuksen alan työntekijöiden ja opiskelijoiden keskinäinen vaihto-ohjelma. Tämän työn tuloksena syntyi koulutusohjelma CAMEEL (European Master's Degree in Computer Applications on Modern Extra-European languages). Tärkeimpinä yhteistyökumppaneina voidaan mainita:
- Napolin yliopisto Italiassa
- Leipzigin yliopisto Saksassa
- Uppsalan yliopisto Ruotsissa
- Norjan tieteen ja teknologian yliopisto Trondheimissa Norjassa
- Groeningenin yliopisto Hollannissa
Kieliteknologia
Arvi Hurskainen on kehittänyt kieliteknologiaa käyttäen avuksi kielen tarkkaa analysointia. Kielen peruskuvaus tehdään soveltaen päättyväistilaisten automaattien menetelmää kielen morfologisessa analyysissa. Sanat kootaan sen morfeemeista (esim. prefikseistä, suffikseista ja sanavartaloista. Kielenkuvausta yksinkertaistetaan liitämällä siihen morfofonologisia sääntöjä, joiden avulla selvitetään poikkeavuudet morfeemien rajoilla. Tämän standardiksi muodostuneen kielenkuvauksen kehitti ensimmäisenä Kimmo Koskenniemi.
Yksittäisten sanojen kuvauksen jälkeen suoritetaan disambiguointi[4] eli valitaan sanan oikea tulkinta lauseen kontekstin avulla. Tässä yhteydessä suoritaan myös lauseen syntaktinen analyysi. Disambiguoinnissa ja syntaktisessa analyysissa on käytetty Fred Karlssonin alun perin ideoimaa ja Connexorin[5] kehittämää kehitysympäristöä CG3 (Constraint Grammar 3).
Tämä kieliteknologian peruspaketti on tarjonnut mahdollisuuden sellaisten sovellusten kehittämiseen kuin oikeinkirjoituksen tarkistin[6] ja korpustekstien annotointi.[7] Lisäksi voidaan kehittää edistyneitä sanakirjoja[8] ja kielen oppimisjärjestelmiä[9] sekä tuottaa eritasoisia sanastoja kielenoppijoille.[7] Hurskainen onkin koonnut kaksi annotoitua[10] eli analysoitua swahilinkielistä tekstikorpusta Helsinki Corpus of Swahili 1.0 ja sen laajennettu ja kehittyneempi versio Helsinki Corpus of Swahili 2.0.[11]
Korkeatasoinen kielen analyysiohjelma tarjoaa myös hyvän pohjan kielen kääntämiselle. Moduulipohjaisen menetelmän avulla kieltä käännetään asteittain kohdekielelle ottaen huomioon monisanaiset ilmaisut, semanttisen disambiguoinnin[4] ja kohdekielen pintamuotojen tuottamiseen tarvittavat säännöt. Eri vaiheita toteutetaan käyttäen kuhunkin vaiheeseen parhaiten soveltuvia menetelmiä ja kehitysympäristöjä. Tällaisia ovat muun muassa CG3, Beta sekä soveltuvat ohjelmointikielet, kuten Perl.
Hurskainen on kehittänyt käännösohjelmia kielipareille swahili -> englanti, englanti -> swahili ja englanti -> suomi.[8]
Tuorein Hurskaisen tutkimuksen kohde on globaalin käännösjärjestelmän kehittäminen käyttäen normalisoitua englantia interlinguana. Idean taustalla on havainto, että kun kääntää tekstiä esimerkiksi swahilista englannin kautta suomeen, koneella tehty käännöstulos on usein parempi kuin jos kääntää saman tekstin nykyenglannista suomeen. Nykyenglanti on kulunut kieli, joka jättää pois relatiivipronomineja sekä konjunktioita sivulauseen alussa. Englanti ei myöskään merkitse transitiivi- ja intransitiiviverbien eroja. Tämä aiheuttaa suuria ongelmia konekääntämisessä. Kun kääntäminen aloitetaan kielestä, jossa kaikki nämä piirteet merkitään, tämä tieto voidaan siirtää englannin kautta kolmanteen kieleen ja tuloksena on kelvollinen käännös.
Hurskaisen kehittämällä sääntöpohjaisella menetelmällä on yhtäläisyyksiä muiden sääntöpohjaisten kehitysympäristöjen kanssa. Sellaisia ovat mm. Grammatical Framework[12] ja Nooj.[13]. Sääntöpohjaisten kieliteknologian menetelmien on todettu olevan erityisen soveliaita sellaisiin kieliin, joilla on vähän kieliresursseja ja jotka ovat morfologisesti kompleksisia.[14].
Tuotantoa
Verkkoaineistoja
- SALAMA,[15] vuonna 1985 toimintansa aloittanut ja jatkuvasti etenevä kieliteknologinen kehitysympäristö erilaisten kieliin liittyvien sovellusten kehittämiseksi.
Tällä hetkellä on saatavana 97 teknistä raporttia muun muassa kielenkäännöksestä englanti-swahili-englanti ja englanti-suomi.[16]
Ladattavat pdf-muotoiset raportit
- Multiword expressions and Swahili to English MT (2008)
- Salama Dictionary Compiler (2008)
- Language learning system (2009)
- Tone marking (2009)
- Bible translation (2009)
- Two-phase method in morphological analysis (2009)
- Relative constructions in Swahili and MT (2009)[vanhentunut linkki]
- Questions in Swahili and MT (2009)
- Intelligent language learning – Advanced approach (2010)
- Handling multiword expressions in English to Swahili MT (2012)
- Compounding and English to Swahili MT (2012)
- Handling proper names in Machine Translation (2013)
- MWEs and precise Translation from Swahili to English (2013)
- Adjectives in English to Swahili Machine Translation (2014)
- Adjectives in Swahili to English Machine Translation (2014)
- Weekdays as person names in Swahili to English Machine Translation (2014)
- Conditional clauses in Swahili to English Machine Translation (2014)
- Clashing and discontinuous MWEs in Machine Translation (2014)
- Compound verbs and derived verbs in Swahili to English MT (2014)
- Salama Dictionary (2015)
- Translation memory plus Salama (2016)
- Machine Translation through Interlingua (2017)
- Passive Constructions in English to Finnish MT (2017)
- Anaphora in English to Finnish MT (2017)
- Normalizing English for Interlingua (2018)
- Comparative and Superlative in English to Finnish MT (2018)
- Implementing Location in English to Finnish MT (2018)
- Proper Names and Acronyms in English to Finnish MT (2018)
- Subject and Object in English to Finnish MT (2018)
- Multi-channel Approach to Global MT (2018)
- Verb Chains in English to Finnish MT (2018)
- Compound Nouns in English to Finnish MT (2018)
- Direct and Indirect Questions in English to Finnish MT (2018) (Arkistoitu – Internet Archive)
- Optimizing Rules in English to Finnish MT (2018)
- Participial Phrase Structures in English to Finnish MT (2018)
- Accurate information retrieval using text analysis and disambiguation (2019)
- Morphological analyzer of Finnish as a finite-state transducer without rules (2019)
- Semantic disambiguation (2019)
- Constructing pronoun forms in English to Swahili machine translation (2019)
- Verb forms and concordance in English to Swahili machine translation (2019)
- Genitive constructions in English to Swahili machine translation (2019)
- Verb extensions in English to Swahili machine translation (2019)
- Compound verbs in English to Swahili machine translation (2019)
- Two methods for accurate information retrieval (2019)
- Intelligent search engines (2019)
- Multiword expressions in English to Swahili machine translation: Nouns (2019)
- Multiword expressions in English to Swahili machine translation: Adjectives (2019)
- Translation of complex word-forms between three structurally different languages (2019)
- Translation via interlingua (2020)
- Comparing manual and digital search systems from the Bible (2020)
- Multi-word verbs in English to Finnish MT I (2020)
- Multi-word verbs in English to Finnish MT II (2020)
- Out of vocabulary guesser: Swahili (2020)
- Optimizing the construction of the English morphological analyser (2020)
- Resolving ambiguity in merged English verb forms (2020)
- Optimizing the description of multi-word expressions in English (2020)
- Ad hoc compounds in English to Finnish machine translation (2020)
- Ad hoc compounds in English to Swahili machine translation (2020)
- Disambiguation strategy of English text (2020)
- Printed text into machine-readable form (2020)
- Msimulizi as corpus for accurate search (2020)
- Can machine translation assist in Bible translation? (2020)
- Hostilities in East Africa in 1888-1896 according to Msimulizi (2020)
- Language learning system with unconstraint vocabulary (2020)
- Non-standard words in Msimulizi in 1888-1896 (2020)
- Slavery in Msimulizi in 1888-1896 (2021)
- Accurate information retrieval from large corpora: Non-extended Swahili monosyllabic verbs (2021)
- Accurate information retrieval from large corpora: Extended Swahili monosyllabic verbs (2021)
- Evaluation of four search systems of Finnish Bible (2021)
- Death in Msimulizi in 1888-1896 (2021)
- Translating unknown compounds from English to Finnish (2021)
- Linguistic distance of Swahili speech varieties (2021)
- Lexical and phonological differences of Swahili speech varieties (2021)
- Translation of participial phrase structures from Finnish to English (2021)
- Describing compound words in Finnish (2021)
- Describing comparative and superlative forms in Finnish (2021)
- Enhanced method for describing compound words (2021)
- Translating compound words from Finnish to English (2021)
- Translating polysemous expressions (2022)
- Optimal collection of words for Wordle (2022)
- Translating Finnish compound words in context (2022)
- Rule-based language technology and self-tutored language learning systems (2022)
- Rule-based language technology applied to learning Finnish (2022)
- Self-tutored learning of Finnish subject and object case (2022)
- Use of proverbs in Swahili texts (2022)
- Use of tense and aspect in Swahili texts (2022)
- Converting Standard Finnish to Kitee dialect (2022)
- Correcting text via language analysis (2022)
- Observations in converting the Finnish Bible into Kitee dialect (2022)
- Numerical symbolism in Bible (2022)
- Managing diacritics, punctuation and text structure in language processing (2022)
- Optimal assignment of glosses in Swahili to English machine translation (2023)
- Managing articles in Swahili to English machine translation (2023)
- New implementation of word order control in Swahili to English machine translation (2023)
- Precision in post-correction of annotated corpus (2023)
- Code mixing in Tanzanian Parliament discussions (2023)
- Tokenisation in rule-based machine translation (2023)
Sovellusohjelmia
- Swahilin kielen oikeinkirjoituksen tarkistin (speller), lisensoitu Microsoftille 2007
- Turun Sanomat: Lingsoftin swahilin oiko-lukuohjelma Microsoftille
- Swahilin kielen analysaattori, jonka avulla on muodostettu analysoitu swahilinkielinen tekstikorpus Helsinki Corpus of Swahili 1.0 (12 milj. sanaa). Ei enää saatavilla.
- Swahilin kielen kehittyneempi analysaattori [7], jonka avulla on muodostettu analysoitu swahilinkielinen tekstikorpus Helsinki Corpus of Swahili 2.0 (25 milj. sanaa).
- Tutkimuskäyttöön tekstikorpus on saatavilla näistä osoitteista:
- Kaupalliseen käyttöön tekstikorpus on saatavilla täältä
- Selainpohjainen eri ohjelmien käyttöympäristö SALAMA[15]
Painettuja teoksia
- Cattle and Culture. The Structure of a Pastoral Parakujo Society. Väitöskirja, Helsingin yliopisto. Studia Orientalia 56,[17] Helsinki 1984. ISBN 51-95076-7-1
- Swahilin peruskurssi. Gaudeamus, Helsinki 1989. ISBN 951-662-485-5
- Dialect specific Dictionary of Kae (Makunduchi). Haji Chum’in kanssa, Department of Asian and African Studies, Helsinki 1993.
- Afrikan kulttuurien juuret. Ari Siiriäisen kanssa, Tietolipas 134 SKS,[18] Helsinki 1995. ISBN 951-717-822-0
- Swahilin peruskurssi. Toinen, uudistettu painos, Suomen itämainen seura, Helsinki 2000.
- Swahilin peruskurssi. Kolmas, uudistettu painos, Suomen itämainen seura, Helsinki 2003.
Toimitustöitä
- Nordic Journal of African Studies (NJAS).[19] Pohjoismainen tieteellinen aikakauskirja Afrikan tutkimuksesta. Aloitteen tekijä ja ensimmäinen päätoimittaja 1992–2006.
- Social Science and Conflict Analysis. Mohamed Salih’in kanssa, Helsingin yliopiston Aasian ja Afrikan kielten ja kulttuurien laitos sekä Scandinavian Institute of African Studies, Uppsala 1993.
Luottamustehtäviä
- Suomen Antropologinen seura, johtokunnan jäsen 1990–2000
- International African Institute (Lontoo, Iso-Britannia),[20] johtokunnan jäsen 1991–2005;
- Nordic Association of African Studies, aloitteen tekijä ja puheenjohtaja 1991–;
- Nordic Journal of African Studies, päätoimittaja 1992–2006;
- Kiswahili (Journal of the Institute of Kiswahili Research, Dar-es-Salaam, Tansania) toimitusneuvoston jäsen 1991–
- Archives of Popular Swahili ja Journal of Language and Popular Culture in Africa (Amsterdam, Hollanti), neuvottelukunnan jäsen 1999–;
- Suomen itämainen seura, johtokunnan jäsen 1998–
- Studia Orientalia -julkaisusarjan toimituskunnan jäsen 1998–
- Special Interest Group for Language and Speech Technology Development (Pretoria, Etelä-Afrikka), jäsen 1999–
- Orientalistiska Studier i Svenska Högskoleverket (Tukholma, Ruotsi), arviointitoimikunnan jäsen 2003–2004.
Huomionosoituksia
- Suomen Valkoisen Ruusun ritarikunnan I luokan ritarimerkki 2005.
- Juhlakirja Africa in the Long Run. Festschrift in the Honour of Professor Arvi Hurskainen. Edited by Lotta Harjula and Maaria Ylänkö. Teos ilmestyi julkaisusarjassa Studia Orientalia, numerona 103, Helsinki 2006. ISBN 951-9380-67-1[21]
Lähteet
- Suomen teologit 1999. Lahti: Suomen kirkon pappisliitto, 1999. ISBN 952-91-0905-9.
- Suomen professorit 1640–2007. Jyväskylä: Professoriliitto, 2008. ISBN 978-952-99281-1-8.
- Tumaini University Makumira Tumaini University. Viitattu 16.04.2018.
- Kielitiede:disambiguointi Tieteen termipankki. Viitattu 16.04.2018.
- Natural Knowledge Connexor. 2011–2016. Viitattu 16.04.2018.
- Zana za Uhakiki za Microsoft Office 2013 – Swahili Microsoft. Viitattu 16.04.2018.
- Hurskainen, Arvi: Tagger 77.240.23.241. Viitattu 16.04.2018.
- Hurskainen, Arvi: Translator 77.240.23.241. Viitattu 16.04.2018.
- Hurskainen, Arvi: Learn Swahili 77.240.23.241. Viitattu 16.04.2018.
- Kielitiede:annotaatio Tieteen termipankki. Viitattu 16.04.2018.
- Hurskainen, Arvi: Helsinki Corpus of Swahili 2.0 (HCS 2.0) Metashare.csc.fi. 9.5.2014. Viitattu 3.3.2019.
- GF – Grammatical Framework - A programming language for multilingual grammar applications GF – Grammatical Framework. Viitattu 16.04.2018.
- A Linguistic Development Environment NooJ. Viitattu 16.04.2018.
- Hurskainen, Arvi. 2018. Sustainable language technology for African languages. In Agwuele, Augustine and Bodomo, Adams (eds), The Routledge Handbook of African Linguistics, 359-375. London: Routledge Publishers. ISBN: 978-1-138-22829-0
- Hurskainen, Arvi: Welcome to Salama 77.240.23.241. ”Salama (Swahili Language Manager) is an environment for language technology applications. All applications in Salama make use of rule-based language technology, started in 1985.” Viitattu 25.6.2018.
- Hurskainen, Arvi: Technical reports on LT Salama - Swahili Language Manager. Viitattu 25.6.2018.
- Studia Orientalia Suomen Itämainen Seura. Arkistoitu 9.3.2019. Viitattu 3.3.2019.
- Hurskainen, Arvi & Siiriäinen, Ari: Afrikan kulttuurien juuret SKS verkkokauppa. Arkistoitu 25.6.2018. Viitattu 25.06.2018.
- Häkkinen, Anne: Nordic Journal of African Studies - General information Nordic Journal of African Studies. 1.3.2004. Arkistoitu 21.4.2018. Viitattu 25.06.2018.
- International African Institute IAI Home. Viitattu 25.6.2018.
- Studia Orientalia Suomen Itämainen Seura - Finnish Oriental Society. Arkistoitu 9.3.2019. Viitattu 25.06.2018.
Aiheesta muualla
- Arvi Hurskainen Suomen Uskontotieteellinen Seura ry. 2018. Viitattu 14.7.2018.