ELEKTRA - elektroninen julkaiseminen ja julkaisujen verkkovälitysRaportti projektin etenemisestä vuoden 1996 aikana ja jatkotoimista 1997Sisältö
TiivistelmäTavoitteetELEKTRA-palvelun tavoitteina on:
KuvausProjekti tuottaa julkaisijoille tarpeellisia digitointipalveluja, jotta keskeistä tieteellistä aineistoa, kuten artikkeleja, väitöskirjoja ja oppimateriaalia voidaan uudelleen julkaista verkkokäyttöisinä. Sekä projektissa digitoidut että valmiiksi verkkokäytössä olevat dokumentit linkitetään yhteisluettelotietokantojen, kuten ARTOn tai Oulun yliopiston kirjastoluettelon viitteisiin ja tarjotaan tiedontarvitsijoiden käyttöön tiedonhaun yhteydessä. Palveluympäristönä on VTLS-tietokanta ja Internetin www-palvelu sekä yleiskäyttöiset selailuohjelmat, kuten Netscape, Mosaic ja Aboden Reader. Projektin sisältämä aineisto on tekijänoikeuden alaista, ja oikeudet ratkaistaan tekijöiden ja julkaisijoiden kanssa tehtävin sopimuksin. Aineisto asetetaan koekäyttöön sopimuskirjastoihin sekä kerätään ja analysoidaan käyttäjäpalaute. Tärkeimmät tulokset 1996Elektronisen julkaisuympäristön luominen sisältäen laitteiston, ohjelmiston ja niiden käyttökoulutuksen, selvitys tiedostomuodoista ja projektissa käytettävien formaattien SGML, HTML ja PDF valinta, selvitys vastaavista ulkomaisista hankkeista ja yhteyksiä niihin, periaatteet kokeiluun sisällytettäviä aineistoja varten ja kysely tieteellisten seurain valtuuskunnan jäsenorganisaatioille heidän halukkuudestaan osallistua kokeiluun aineiston tuottajina, sopimuskäytäntö ja sopimusluonnokset oikeuksien siirtämiseksi julkaisijoilta ja tekijöiltä HYK:ille, artikkeleja ja väitöskirjan sisältävän testiaineiston muuntaminen projektin edellyttämiin muotoihin, luettelointikäytäntö elektronisia verkkojulkaisuja varten, testitietokannan luonti VTLS ympäristöön sekä projektin tiedotuksen ja dokumentaation toteuttaminen www-palvelimella. Vuoden 1997 tehtävätElektronisen testiaineiston kartuttaminen, elektronisten dokumenttien arkistointi, oppikirjapilotti, käytön seuranta ja käyttäjätesti sekä niiden tulosten analysointi, selvitys maksullisuudesta ja laskutusohjelmista, selvitys julkaisujen autenttisuuden varmistamisesta, selvitys tekijänoikeuksista, asiantuntijaseminaari ja loppuraportti. OsallistujatHelsingin yliopiston kirjasto (koordinaattori) Helsingin yliopiston atk-keskus Oulun yliopiston kirjasto Tieteellisten seurain valtuuskunta Kopiosto VTT Tietopalvelu Gaudeamus kirja Yliopistopaino Aikataulu ja kustannuksetProjektin kokonaiskesto on 18 kuukautta. Projekti on käynnistynyt 1.7.1996 ja päättyy 31.12.1997. Kokonaiskustannukset ovat 1 700 000 markkaa ja opetusministeriöltä anottava avustus vuodelle 1997 on 440 000 markkaa. Ajantasaista tietoaYhteyshenkilöInkeri Salonharju
Raportin alkuun 1. Tavoitteet ja taustaELEKTRA on yhteistyöhanke, joka tähtää kotimaisen elektronisen julkaisemisen ja julkaisujen verkkokäytön teknisten ja sopimuksellisten edellytysten kehittämiseen. Projektin pitkän tähtäimen tavoitteena on toimiva elektronisen julkaisemisen palvelukeskus. Projektin kuluessa luodaan tekninen julkaisuympäristö, sopimuskäytännöt ja suhteet julkaisujoihin jatkuvaa toimintaa varten. Riittävän laadun ja määrän varmistamiseksi projektin tulee kattaa palvelut julkaisujen digitointia, muokkausta sopivaan tiedostomuotoon, arkistointia ja verkkovälitystä varten. Mikäli julkaisija itse voi taata dokumentin autenttisuuden ja saatavuuden, voidaan rajoittua pelkkien linkkien luontiin verkossa oleviin elektronisiin julkaisuihin. ELEKTRA-palvelun tavoitteina on:
Raportin alkuun 2. Projektin organisointi ja toteutusELEKTRA-palvelulla on johtoryhmä, jossa kaikilla osallistujille on edustus. Johtoryhmä hyväksyy projektisuunnitelman, ohjaa projektin työtä, päättää resurssien käytöstä ja hyväksyy projektin tulokset. Taloudellinen koordinaattori vastaa taloudesta, raportoi projektin tuloksista ministeriölle ja vastaa ulkoisesta tiedotuksesta. Projektipäällikkö laatii tarvittavat suunnitelmat, antaa toimeksi niiden edellyttämät tehtävät, osallistuu teknisen ympäristön suunnitteluun ja testaukseen, vastaa toteutuksen aikatauluista ja lopputuloksesta resurssien rajoissa, dokumentoi projektin vaiheet sekä hoitaa projektin sisäisen tiedotuksen. Projektisihteeri hoitaa avustavat tehtävät. Projektin toteutuksen työvälineeksi on laadittu projektisuunnitelma, joka on liitteenä. Projektiin osallistuu asiantuntijoita kaikista osallistujaorganisaatioista ja asiantuntijatyö on organisoitu toteutettavaksi työryhmissä, joita on viisi:
Projektilla on kaksi palkattua työntekijää, puolipäivätoiminen projektipäällikkö ja näiden lisäksi kirjastojen henkilöstö osallistuu projektisuunnitelman mukaisiin tehtäviin. Projektin työ on jaettu työpaketteihin, jotka on vaiheistettu toteutettaviksi vuosien 1996 ja 1997 aikana seuraavasti:
Projekti on edennyt suunnitelmien mukaisesti vuoden 1996 aikana ja työohjelman kohdat 1 - 6 on saatu pääosin toteutettua, ja kohdat 7 - 12, 17 ja 19 on käynnitetty. Tärkeimmät saavutetut tulokset ovat: Elektronisen julkaisuympäristön luominen sisältäen laitteiston, ohjelmiston ja niiden käyttökoulutuksen
Vuoden 1997 työohjelmassa ovat työkohteet 13 - 16, 18, 20 sekä kohteiden 7 -12 , 17 ja 19 loppuunsaattaminen. Toteutettavia tehtäviä ovat:
Raportin alkuun 3. Koulutus ja tiedotusProjektia varten on laadittu koulutussuunnitelma ja projektista on tiedotettu artikkeleissa, painetulla esitteellä ja www-kotisivulla, joka löytyy osoitteesta http://www.lib.helsinki.fi/elektra. Kotisivuille on sisällytetty lähes kaikki projektiin liittyvä dokumentaatio, projektisuunnitelma, kaikki laaditut raportit, johtoryhmän ja työryhmien kokousten muistiot, yhteydenottolomake julkaisijoille ja yhteydet muihin koti- ja ulkomaisiin ELEKTRAn kannalta kiinnostaviin hankkeisiin. Osa kotisivuista on julkisessa käytössä, mutta projektin sisäiset dokumentit on sijoitettu käyttäjätunnuksella ja salasanalla suojattuun arkistoon. ELEKTRA-palveluin sisällytetyn koulutuksen tavoitteena on ollut antaa projektin eri henkilöstöryhmille riittävät valmiudet kehittämishankkeen läpiviemiseksi, sekä kehittää alan asiantuntemusta osallistujaorganisaatioissa. Koko johto- ja projektiryhmälle on järjestetty verkkojulkaisemisen peruskoulutus (VTT Tietopalvelu) ja tekijänoikeusseminaari (Kopiosto). Lisäksi on osallistuttu VTT Tietopalvelun järjestämään Electronic Publishing -seminaariin, Liikenneministeriön järjestämään Tiveke-seminaariin, VTT Tietotekniikan järjestämään Elektronisen kaupankäynti ja tietoturva -seminaariin, Tampereen yliopiston täydennyskoulutuskeskuksen järjestämälle tietoverkkoasiantuntijakurssille, TICERin järjestämään elektronisen kirjaston kesäkouluun Tilburgissa Hollannissa ja Online Information 96 konferenssiin ja näyttelyyn sekä sateliittiseminaariin Charging for Information Lontoossa. Yhteyksiä on luotu muihin kotimaisiin Suomi tietoyhteiskunnaksi -ohjelman elektroniseen julkaisemiseen liittyviin hankkeisiin yhteistapaamisella Jyväskylässä 30.8 ja sähköpostilistalla. ELEKTRAa on esitelty EU:n kirjasto-ohjelman johtajalla, Arione Iljonille hänen Suomen vierailunsa yhteydessä 15.9, Turun kirjamessuilla 18.-20.10 ja Lindköping University Electronic Press on tutustunut ELEKTRAan 26.11.1996. Raportin alkuun 4. Tulokset4.1 TaustaselvityksetProjektin työpaketti yksi sisältää tarvittavat perusselvitykset, 1) internetin kautta saatavilla olevat kotimaiset verkkojulkaisut, 2) aineiston valintastrategiat ja julkaisujen valinta, 3) vastaavat ulkomaiset hankeet ja 4) tiedostomuodot ja ohjelmistot. Internetin kautta saatavia verkkojulkaisuja selvitettiin VTT Tietopalvelun ja Helsingin yliopiston kirjaston ylläpitämien lehtilistojen pohjalta. Projektin valintakriteereiden (esitetty luvussa 4.4) mukaisia verkkojakelussa olevia dokumentteja löytyi kuitenkin niin vähän, että päädyttiin tekemään kysely Tieteellisten seurain valtuuskunnan jäsenorganisaatiolle heidän verkkojulkaisutilanteestaan ja halukkuudestaan antaa aineistoaan ELEKTRA-palvelun käyttöön. Raportti kotimaisista verkkojulkaisuista julkaistaan yhdessä kyselyn tulosten kanssa vuoden 1997 alkupuolella. Selvitykset vastaavista ulkomaisista hankkeista ja tiedostomuodosista ja ohjelmistoista ovat liitteenä. Oulun väitöskirjapilotissa selvitettiin erityisesti SGML-standardin käyttömahdollisuutta väitöskirjojen elektronisessa julkaisemisessa, ja siihen liittyvä raportti on myös liitteenä. Raportin alkuun 4.2 Digitointiympäristö ja palvelutPilotteja varten saatavan valmiiksi elektronisessa muodossa olevan aineiston määrä on osoittautunut ennakkolta odotettua vähäisemmäksi, jolloin digitoinnin tarve ja sen edellyttämät resurssit ovat muodostuneet keskeisiksi projektissa. Pilottien julkaisuympäristö koostuu Pentium-tasoisista PC-työasemista, jotka on varustettu 64 Mt:n keskusmuistilla ja 1,7 Gt:n kiintolevyillä. Lisäksi laitteistoon kuuluu HP SckanJet 4C väriskanneri. Digitointiprosessi on esitetty kuviossa 1. Artikkelipilottiin sisällyttyjen lehtien tekninen taso ja tiedostomuodot ovat vaihdelleet suuresti. Osa artikkeleista on saatu erilaisilla tekstinkäsittely- tai suvuntaitto-ohjelmilla tuotetuissa tiedostomuodoissa (MSWord, WordPerfect, PageMaker, Ventura) ja osa paperikopioina. Artikkelit on digitointiprosessissa muutettu sekä HTML- tai PDF- muotoon. Pelkästään painetussa muodossa olevan lähtöaineiston ainoa digitointivaihtoehto on skannaus. Suomen kielinen, pääosin tekstiä sisältävä aineisto on skannattu Visioneer PaperPort -ohjelmalla, joka tunnistaa tekstin, myös skandinaaviset merkit. Joidenkin kirjainyhdistelmien tunnistaminen tuottaa ohjelmalle kuitenkin vaikeuksia, kuten myös palstoitus. Ohjelma kokoaa artikkelin sivut pinoksi, jota käsittellään Word-dokumenttina ja se oikoluetaan ohjelmallisesti ja siihen tehdään tarvittavat korjaukset. Tämän jälkeen dokumentti konvertoidaan HTML-editorilla (esim. HotMetal) HTML-dokumentiksi. Lopuksi tehdään vielä tarvittavat korjaukset, sillä nykyiset editorit eivät aina osaa konvertoida dokumenttia täysin oikein. Yleisimmät virheet ilmenevät otsikoissa, listoissa ja taulukoissa. Jotta dokumentin konvertointi onnistuisi mahdollisimman vähällä käsityöllä, tulisi sen olla kirjoitettu kulloinkin käytettävän tekstinkäsittelyohjelman tyylimääritysten mukaisesti. Artikkelin kuvat on skannattu erikseen kuvankäsittelyohjelman (käytössä Adobe Photoshop ja Corel Photo-Paint) avulla ja liitetty yksitellen uudelleen HTML-dokumenttiin, sillä Visioneer PaperPort-ohjelma ei osaa käsitellä tekstin joukossa olevia kuvia. Silloin kun elektronisessa muodossa olevan artikkelin painettua vastaava ulkoasu on haluttu säilyttää tai artikkeli on sisältänyt runsaasti matemaattisia kaavoja, on digitointiin käytetty Adoben Acrobat Capture-ohjelmaa. Ongelmana on kuitenkin se, että Capture ei tunnista tekstistä skandinaavisia merkkejä, eikä ylipäätään Suomen kieltä, jolloin dokumentin jatkokäsittely on hidasta. Dokumentti voidaan kuitenkin tallettaa myös kuvana, jolloin kirjasinta ja tekstiä ei tunnisteta. Tätä menettelyä käyttäen tiedostojen koot kasvavat kuitenkin melko suuriksi, eikä tekstin laatu ole yhtä hyvä kuin tunnistetun tekstin. Capture tunnistaa myös kuvat, mutta niiden laatu vaihtelee ja kuvien väri-informaatio menetetään, sillä kuvat saadaan ainoastaan mustavalkoisina. Englanninkielisen materiaalin käsittely Capturen avulla käy melko vaivattomasti ja nopeasti. Projektin käytössä oleva HP SckanJet 4C on osoittautunut liian hitaaksi laajamittaisempaan aineiston skannaamiseen. Alunperin ajatuksena olikin, että skanneria käytettäisiin pääasiassa vain kuvien skannaukseen ja digitointiin, mutta painetussa muodossa saadun testiaineiston osuus on ollut yllättävän suuri. Skannaamalla käsitellyn aineiston suurimmat digitointiongelmat ovat liittyneet viivapiirroksiin, jotka sisältävät paljon pieniä yksityiskohtia usein pienifonttiseen tekstiin yhdistettynä. Kuvainformaation ja yksityiskohtien merkitys kuvassa on monilla tieteenaloilla, esimerkiksi luonnontieteissä, suuri. Kuvan tarkkuus kärsii suuresti skannattaessa, ja mikäli skannaustarkkuutta kasvatetaan, kasvaa myös kuvatiedoston koko ja toisaalta kuvan esitys näyttöruudulla, yksityiskohdan täyttäessä koko ruudun, irrottaa kuvan helposti muusta tarkasteluympäristöstään. Piirrosaineisto olisi tärkeää saada valmiiksi elektronisessa muodossa. Yleisimmillä tekstinkäsittelyohjelmilla (MS Word, WordPerfect) tuotettujen dokumenttien muuttaminen HTML- tai PDF- muotoon on osoittautunut melko vaivattomaksi. Esimerkiksi Word- ja WP-dokumentit voidaan Adoben Acrobat PDF Writer -, Distiller- ja Exchange- ohjelmien avulla muuttaa suoraan PDF-muotoon. WordPerfectin versiosta 7.0 dokumentti voidaan tallentaa suoraan HTML-muodossa. Konvertointi onnistuu myös paremmin kuin Word-dokumentista HTML-editoreilla, esimerkiksi listat ja taulukot konvertoituvat huomattavasti paremmin. Sivuntaitto-ohjelmista on projektissa toistaiseksi kokemusta vain PageMaker-ohjelmasta. Sillä tehdyt dokumentit on konvertoitu suoraan PDF-muotoon Adoben Distiller-ohjelma ja HTML-muotoon PageMakerin omalla apuohjelmalla. Ventura-taitto-ohjelmalla tuotetun aineiston muuntamista elektroniseen muotoon testataan parhaillaan VTT Tietopalvelussa. Julkaisijoilla on laajasti käytössä myös Macintosh-laitteistoja, jotka eivät ole yhteensopivia PC-ympäristöjen kanssa, mutta projektissa on testattu erilaisia käsittelyprosesseja tällekin aineistolle. Pelkkä teksti ei yleensä tuota ongelmia, mutta matemaattiset kaavat sitäkin enemmän. Macintoshilla tehdyt PageMaker-dokumentit toimivat myös Windows-ympäristössä, mutta vain sillä edellytyksellä, että ohjelmaversiot ovat samat (esim. Macintosh 5.0 edellyttää Windows 5.0 versiota). Raportin alkuun 4.3 JakeluympäristöPilottiaineiston koekäyttöä varten on perustettu testitietokanta ELEKTRA HP-3000 tietokantapalvelimelle VTLS-ympäristöön. Uuden tietokannan perustamiseen tarvittava lisenssi on saatu VTLS Inc:iltä, ja lisenssi oikeuttaa testitietokannan projektin käyttöön määräajaksi. Tietokantaan sisällytetään testiaineiston bibliografiset tietueet, jotka ensin tallennettaan ARTO-tietokantaan ja kopioidaan sieltä testitietokantaan. Tietueisiin lisätään URL-osoitteet kenttään 856 hypertekstilinkkien luomiseksi. Julkaisujen jakelukanavana käytetään internetin www-palvelua. Elektronisten dokumenttien arkistointia ja www-palvelinohjelmiston käyttöä varten on hankittu Pentium Pro mikrotietokone, joka on varustettu 64 Kt:n keskusmuistilla ja 2 Gt:n SCSI-kiintolevyllä. Käyttöjärjestelmänä on Linux, ja koneessa toimii www-palvelin ja www-pohjainen hakupalvelun käyttöliittymäohjelma. Käyttöliittymäohjelma on kehitetty Teknillisen korkeakoulun kirjastossa VTLS-tietokantojen käyttöä varten. Haku ja dokumenttien selailuympäristö on esitetty kuviossa 2. Testitietokanta annetaan koekäyttöön kuuden yliopistokirjaston kahdeksassa yksikössä, joissa tietokanta on käytettävissä sellaisilla työasemilla, joilta on mahdollista dokumenttien katselu ja tarvittaessa tulostus kirjoittimelle. Työasemalla tarvitaan jokin www-selainohjelma (Netscape, Mosaic, Internet Explorer) sekä Adoben Acrobat Reader -ohjelma PDF-muotoisten dokumenttien lukemista varten. Tietokannan käyttö on suojattu käyttäjätunnuksella ja salasanalla, jotka ovat vain testikirjastojen käytössä. Dokumenttien koekäytön määrään seurantaa varten selvitetään markkinoilla olevien valmisohjelmien käyttömahdollisuutta. Raportin alkuun 4.4 Aineistostrategiat ja testiaineiston valinta ja hankintaProjektin tavoitteiden mukaisesti testiaineistoksi on valittu artikkeli-, väitöskirja, opinnäyte- ja oppimateriaalia. Helsingin yliopiston kirjaston pilottiin sisällytetään eri aineistotyyppejä, mutta Oulun pilotissa keskityttään väitöskirjoihin ja muihin opinnäytteisiin. Pilottien sisältöalaa ei ole rajattu jollekin tieteenalalle, vaan mukaan otetaan aineistoa kattavasti eri aloilta. Näin saadaan simuloitua mahdollisimman hyvin todellinen palveluympäristö ja kartoitettua tuottajien verkkokehitystilanne ja kiinnostus elektronisen palvelun kehittämiseen, markkinapotentiaali ja käyttäjien reaktiot. Artikkeliaineiston valinnan yhtenä kriteerinä käytetään lehden indeksointia ARTO-tietokantaa ja ensisijaisesti selvitetään niitä lehtiä, joiden julkaisijat ovat Tieteellisten seurain valtuuskunnan jäsenisä. Yhdessä TSV:n ja Kopioston kanssa on tehty kysely TSV:n yli sadalle jäsenorganisaatioille. Kyselyllä kartoitetaan juoksijoiden yhteistyöhalukkuutta ELEKTRA-palvelun kanssa, kiinnostusta verkkojulkaisemiseen ja käytössäolevia tekniikoita. ARTOon indeksoidaan tällä hetkellä yli 1000 kotimaista aikakauslehteä. Lehtiä on kaikilta tieteen aloilta ihmislääketiedettä lukuunottamatta ja mukana on myös harrastus- ja paikallislehtiä. Tieteellisten seurain piirissä julkaistaan lähes 100 tieteellistä lehteä, vuosikirjaa tai raporttisarjaa. Ensimmäisessä vaiheessa Tieteellisten seurain valtuuskunnan jäsenseuroja lähestyttiin järjestämällä tiedotustilaisuus, johon kutsuttiin seitsemän lehden päätoimittajat. Tilaisuudessa kerrottiin ELEKTRA-palvelusta ja keskusteltiin julkaisijoiden kiinnostuksesta osallistua kokeiluun ja luovuttaa testiaineistoa projektin käyttöön. Kaikki osallistujat olivat kokeilusta kiinnostuneista, ja mukana olleisiin päätoimittajiin on otettu yhteyttä ja saatu testiaineistoa lähes kaikista lehdistä. Aineisto on ollut osin painettua ja osin digitoitua. Saatu aineisto on muunnettu HTML- ja PDF-muotoihin, ja valmiiksi digitoituna on noin 50 artikkelia. Oulun yliopiston kirjastossa on muunnettu yksi väitöskirja SGML-muotoon, mistä se on konvertoitu myös sekä HTML- että PDF-muotoihin. Ensi vuoden aikana on tarkoitus sisällyttää pilottiin Oulun yliopiston ACTA-sarjassa julkaistuja väitöskirjoja yhteensä 2-30 kappaletta, jotka ovat vuodesta 1991 saatavissa Ventura-tiedostoina. Testiaineiston täydentämiseksi mukaan otetaan myös syventävien opintojen tutkielmia, joissa työn tekijä voi jo osittain strukturoida omaa tekstiään projektin laatimien ohjeiden ja valmiiksi ohjelmoidun julkasualustan avulla. Raportin alkuun 4.5 ArkistointiArkistointi on keskeinen osa ELEKTRAn palveluja ja keino varmistaa palvelun laatu, dokumenttien autenttisuus ja saatavuus sekä pitkäaikaissäilytys. Arkistointi edellyttää suunnitelmaa, jonka on sovelluttava myös muun kansalliskirjastoaineiston, kuten kuvien ja muiden dokumenttien säilytykseen ja sen tulee mahdollistaa arkistokokoelman laajentuminen sekä riittävä hakemistojen ja yksittäisten dokumenttien identifiointi. Hakemistostruktuuria eikä yksittäisten julkaisujen osoitetietoja voida myöhemmin muuttaa ilman suuria kustannuksia. Arkistointisuunnitelman ensimmäisessä vaiheessa on lähdetty liikkeelle hakemistojen ja tiedostojen nimeämiskäytännöistä ja suunnitelman laadintaa jatketaan. Piloteissa tuotetut elektroniset dokumentit arkistoidaan Helsingin yliopiston kirjaston Linux-arkistopalvelimelle. Raportin alkuun 4. 6 Tekijänoikeudet ja sopimuskäytännötKopiosto vastaa ELEKTRA-palvelussa tekijänoikeuskysymyksiin liittyvästä asiantuntemuksesta ja hoitaa osaltaan yhteyksiä oikeudenhaltijoihin. Kopiosto on laatinut selvityksen projektin edellyttämistä sopimusmenettelyistä (selvitus liitteenä). Selvityksen lähtökohtana on, että projektissa tehtävä digitointi ja julkaisujen verkkokäyttöön asettaminen ovat tekijänoikeuden suojaamien kirjallisten teosten ja niihin liittyvän kuvituksen uudelleejulkaisemista, joka edellyttää oikeudenhaltijoiden kanssa solmittavaa sopimusta. Selvitys käsittelee myös digitaalisten käyttöoikeuksien luovutusta, käytön ehtija ja korvauksia, oikeuksien hankintaa ja hallinnointia, sopimuksia, korvauksia sekä käyttötapahtumien reksiteröintiä. Digitaalisten käyttöikeuksien siirtämiseen tarvittavat sopimukset valmistuvat tammikuussa 1997. Päivitetty 9.4.1997 |