Jezik in Slovstvo

Številka 3–4/2009 ~ Issue 3–4/2009

PDF DATOTEKE

Patrick Hanks: Sestavljanje enojezičnega slovarja za domače govorce. Jezik in slovstvo. 3–4/2009. 7–24.
V članku primerjamo vlogo slovarja in leksikalne baze in obravnavamo problematiko slogovne zaznamovanosti in jezikovne pravilnosti v slovarjih. Nadalje se ukvarjamo z različnimi tipi razvrstitev pomenov v slovarjih, z zgodovino besed in z načeli izbire slovarskih gesel. Korpus navajamo kot bistven vir za obravnavo pomena, kolokacij in sintagmatike, ukvarjamo pa se tudi z načini interpretacije korpusnih podatkov – korpusnim profiliranjem iztočnic. Zaključujemo z mislijo, da slovar prikazuje osrednji jezikovni standard, pri čemer morajo vsa izražena jezikoslovna mnenja v njem temeljiti na korpusnih dokazih.
Ključne besede: leksikografija | korpusno jezikoslovje | računalniško jezikoslovje | analiza diskurza

Patrick Hanks: Compiling a Monolingual Dictionary for Native Speakers. Jezik in slovstvo. 3–4/2009. 7–24.
In the article we compare the role of the dictionary and the lexical database, and address the issue of language register and correctness in dictionaries. We then deal with various types of sense distribution in dictionaries, the history of the word, and the principles of selection of dictionary headwords. We cite the corpus as an essential source for the treatment of meaning, collocation and syntagmatics, and investigate ways of interpreting corpus data – corpus profiling of headwords. We conclude with the thought that a dictionary represents the central language standard, whereby all of the expressed linguistic opinions contained in it must be based on corpus evidence.
Keywords: lexicography | corpus lingistics | computer linguistics | discourse analysis

František Čermák: Leksikografovi zapiski o korpusnem slovarju. Jezik in slovstvo. 3–4/2009. 25–42.
V prispevku skušamo izpostaviti nekatere zahtevnejše probleme in vprašanja, s katerimi se srečujemo pri izdelavi enojezičnega slovarja. Ker tukajšnja analiza ne more biti dovolj izčrpna, pa tudi ne dovolj poglobljena, delimo opažanja, uvedena s preliminarnimi opombami, v dva osnovna sklopa (I in II). V prvem delu (I, 2–4) predstavimo s primeri in komentarji opremljeno analizo korpusnega gradiva (zasnovano na češčini), ki je podlaga za izdelavo leksikalnega profila določene besede, v drugem delu (II, 5–8) pa, navezujoč se na prej povedano, komentiramo zbir nekaterih osnovnih vidikov in načel slovaropisnega procesa. Relevantni viri za glavnino izpostavljenih točk so navedeni na koncu prispevka med literaturo.
Ključne besede: sestavljanje slovarja | korpusni podatki | metodologija

František Čermák: Lexicographer’s Notes Related to a Corpus-Based Dictionary. Jezik in slovstvo. 3–4/2009. 25–42.
In the following notes there will be an attempt made to emphasize some of the difficult problems and issues encountered during the compilation process of a monolingual dictionary. Since it is neither possible to be exhaustive nor detailed enough, the notes, preceded by some preliminary remarks (1), are split into two main sections (I and II). In Part I (2-4), an analysis of corpus data (drawing on the Czech language), exemplified and commented, is offered resulting at a lexical profile of a word, while in Part II (5-8) drawing on the previous part, a commented list of some of the main aspects and principles of the dictionary-making business will be presented. References to most of the points raised are to be found in the literature at the end.
Keywords: dictionary compilation | corpus data | methodology

Špela Arhar: Učni korpus SSJ in leksikon besednih oblik za slovenščino. Jezik in slovstvo. 3–4/2009. 43–56.
Glavni namen prispevka je predstavitev priprave učnega korpusa ter leksikona besednih oblik za slovenščino. 400.000 besed obsegajoči korpus SSJ predvideva štirinivojsko označenost: lematizacijo, označenost na oblikoskladenjski ter skladenjski ravni ter označenost lastnih imen. Vse oznake bodo ročno pregledane. Skupaj s korpusom JOS100k tvori korpus SSJ polmilijonski učni korpus za učenje statističnih modelov za npr. oblikoskladenjsko označevanje ter skladenjsko razčlenjevanje slovenščine. Leksikon besednih oblik bo prinašal okvirno 100.000 leksikonskih enot, vsebujočih oblikoslovne paradigme posameznih besed z naborom informacij, prekrivnih s sistemom oblikoskladenjskega označevanja JOS. Predvidena je vključitev informacij o (besedotvorni) povezanosti leksikonskih enot, v primeru v jezikovni rabi izpričane oblikovne variantnosti pa bodo vključeni tudi podatki o pogostnosti oblik ter njihovi trenutni opredeljenosti v normativnih virih. Vključitev večbesednih enot je predvidena na ravni večbesednih lastnih imen ter oblik, ki se variantno pišejo skupaj oz. narazen.
Ključne besede: učni korpus | označevanje korpusa | oblikoskladenjsko označevanje | skladenjsko označevanje | označevanje lastnih imen | leksikon besednih oblik

Špela Arhar: The “Communication in Slovene” (SSJ) Training Corpus and the Slovene Lexicon. Jezik in slovstvo. 3–4/2009. 43–56.
The main purpose of the article is the presentation of the preparation of the training corpus and the lexicon of word forms for Slovene. With a scope of 400,000 words, the existing corpus presupposes four-level manually checked annotation: lemmatisation, morphosyntactic and syntactic annotation, and named entity recognition. Together with the JOS100k corpus, the SSJ corpus forms a training corpus of half a million entries for training statistical models, such as for the purposes of morphosyntactic tagging and parsing of Slovene texts. The lexicon will provide approximately 100,000 units, containing morphological paradigms of individual words with a selection of data, in line with the JOS system of morphosyntactic annotation. The inclusion of information about the (derivational) connectedness of lexical units is foreseen, and in the case of observed form variation in language use we will also include information about the frequency of forms and the current definition in normative sources. The inclusion of multiword units is foreseen on the level of multiword proper nouns and forms for which there are variants that are written together and apart.
Keywords: training corpus | corpus annotation | morphosyntactic annotation | syntactic annotation | named entity recognitionlexicon

Nataša Logar Berginc, Simon Šuster: Gradnja novega korpusa slovenščine. Jezik in slovstvo. 3–4/2009. 57–68.
V prispevku je predstavljen začetni del gradnje novega referenčnega korpusa slovenščine. Ta bo nadgradnja korpusa FidaPLUS ter bo imel 100-milijonski del in do milijarde pojavnic obsegajoči ostali del. Prikazana in na kratko utemeljena je taksonomija korpusa z okvirnimi deleži različnih vrst besedil, našteta pa so tudi druga ključna načela, ki bodo usmerjala zbiranje. Zbiranje besedil na podlagi različnih podatkov, iz katerih je mogoče vsaj okvirno sklepati o recepciji in produkciji javno objavljenih slovenskih besedil, že poteka.
Ključne besede: referenčni korpus | merila gradnje | taksonomijaFidaPLUS

Nataša Logar Berginc, Simon Šuster: Compiling a New Corpus of Slovene. Jezik in slovstvo. 3–4/2009. 57–68.
The article presents the initial work in the construction of a new reference corpus for Slovene. This will be an upgrade of the FidaPLUS corpus and will be divided into two parts: the first containing one hundred million tokens and the second containing the difference up to a billion tokens. The taxonomy of the corpus is presented, with the approximate division of various types of text, along with a brief explanation of the principles guiding this taxonomy. Certain other key principles that will determine selection are also listed. The selection of texts on the basis of various data, from which it is possible to at least approximately make inferences about the reception and production of the publicly published Slovene texts, is still in progress.
Keywords: reference corpus | compilation criteria | taxonomyFidaPLUS

Polona Gantar: Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Jezik in slovstvo. 3–4/2009. 69–94.
V prispevku predstavimo izdelavo leksikalne podatkovne baze za slovenščino, ki poteka v okviru projekta Sporazumevanje v slovenskem jeziku. Pojem najprej osvetlimo s teoretičnega vidika in ga umestimo v kontekst konkretnih rezultatov po posameznih evropskih jezikih. Dvojni namen leksikalne podatkovne baze za slovenščino, tj. za slovarske aplikacije in računalniško obdelavo naravnega jezika, določa opis leksikalnih enot s treh temeljnih vidikov: pomenskega, skladenjskega in kolokacijskega. Na podlagi teh izhodišč predstavimo zgradbo leksikalne baze po vsebinskih nivojih in pojasnimo teoretične razmisleke o vsebinskih rešitvah. Na koncu na kratko predstavimo orodje za izdelavo leksikalno-gramatičnega profila besed Word Sketch in opišemo programski vmesnik za izdelavo leksikalne baze.
Ključne besede: leksikalna podatkovna baza | leksikalno-gramatični pristop | leksikografija | leksikologija | besedni pomen | računalniška obdelava naravnega jezika

Polona Gantar: The Lexical Database: Everything You Always Wanted to Know About Language. Jezik in slovstvo. 3–4/2009. 69–94.
In the article we present the compilation of a lexical database for Slovene, which is being undertaken within the framework of the project Communication in Slovene. We first shed light upon the concept from the theoretical point of view, and then position it within the context of concrete results in similar projects for other individual European languages. The dual purpose of the lexical database for Slovene, i.e., for dictionary applications and for natural language processing, determines the description of lexical units from three basic viewpoints: semantic, syntactic and collocational. On the basis of these points of departure we present the construction of the lexical database in terms of content levels and elucidate theoretical reflections on content solutions. Finally we present a tool for processing the lexicogrammatical profile of wordsWord Sketch, and describe the programme interface for the production of a lexical database.
Keywords: lexical database | lexicogrammatical approach | lexicography | lexicology | word meaning | natural language processing

Simon Krek: Od SSKJ do spletnega portala standardne slovenščine. Jezik in slovstvo. 3–4/2009. 95–113.
V prispevku obravnavamo stanje priročniških virov za slovenski jezik in orišemo predlog programa za izgradnjo portala medsebojno povezanih jezikovnih virov v elektronski obliki. Predlog je zasnovan v štirih sklopih, ki zajemajo področja jezikovnega opisa, standardizacije jezika, terminoloških in dvojezičnih virov. Na kratko orišemo razvoj podobnih virov za druge jezike in podajamo primere teh virov po posameznih področjih. Ugotavljamo, da je stanje glede razvitosti in dostopnosti virov za slovenščino nezadostno in da bi k izboljšanju lahko pripomoglo bolj domišljeno načrtovanje in obstoj osrednjega institucionalnega telesa z možnostjo realnega dodeljevanja finančnih sredstev.
Ključne besede: jezikovno načrtovanje | jezikovni viri | jezikovni priročniki | računalniško jezikoslovje | korpusno jezikoslovje

Simon Krek: From the Dictionary of Literary Slovene (SSKJ) to a Web Portal of Standard Slovene. Jezik in slovstvo. 3–4/2009. 95–113.
In the article we treat the state of reference sources for Slovene language and outline a proposal for a programme for constructing a portal of interconnected language sources in electronic form. The proposal is conceived in four sections, embracing the areas of language description, the standardisation of language, and terminological and bilingual sources. We briefly sketch the development of similar sources for other languages and give examples of these sources in particular fields. We find that the state of development of sources for Slovene is inadequate, as is the access to these sources, and conclude that improvement of this situation would be aided by more imaginative planning and the existence of a central institutional body with a capacity for the genuine provision of financial resources.
Keywords: language planning | language sources | reference books | computer linguistics | corpus linguistics

Marko Stabej: Slovarji in govorci: kot pes in mačka? Jezik in slovstvo. 3–4/2009. 115–138.
Slovarji kot metajezikovna dela imajo trojno vlogo: simbolno, gradivno in uporabno. Zadnja v slovenski slovaropisni tradiciji ni prevladujoča, kar je mogoče razumeti le na kulturno- in političnozgodovinskem ozadju. Govorci in govorke zato nimajo na voljo slovarjev, ki bi jim zanesljivo pomagali pri jezikovnozmožnostnih in sporazumevalnih težavah, to pa perspektivno slabi slovensko jezikovno skupnost.
Ključne besede: slovaropisje | ciljni uporabniki slovarjev | sociolingvistika | zgodovina slovenskega jezika

Marko Stabej: Dictionaries and Speakers: Like Dog and Cat? Jezik in slovstvo. 3–4/2009. 115–138.
As metalinguistic works dictionaries have three roles: symbolic, material and utilitarian. In the tradition of Slovene dictionary writing the latter is not the prevailing role, a fact that can be understood only on a cultural-historical and political-historical background. The consequence of this is that speakers do not have dictionaries available that would reliably help them with language-capability and communication difficulties, which weakens the prospects of the Slovene linguistics community.
Keywords: dictionary writing | target users of dictionaries | sociolinguistics | the history of Slovene language

Jure Zupan: Koncept mrežnega pomenskega slovarja slovenskih besed. Jezik in slovstvo. 3–4/2009. 139–151.
Prispevek predstavlja možnost povezav in pregledovanja besed po pomenih, ki v tiskanih slovarjih ni možna. Opisane so prednosti in možnosti, ki jih nudi tako organiziran slovar in predstavljena je delovna verzija mrežno urejenega slovarja slovenskih besed v računalniško dostopni obliki. Namen predstavljenega mrežnega slovarja je uporabniku ponuditi informacije o posameznih besedah ne le v smislu lematizacije (slovarskega gesla, v katerem je navedena besedna vrsta obravnavane besede ampak tudi pomensko povezane besede širšega in ožjega pomena. V opisani delovni verziji je v pomensko mrežo urejenih nekaj nad 5000 besed, večinoma samostalnikov. Delovna verzija je na voljo uporabnikom na zgoščenki, ki jo zainteresirani bralci lahko dobijo od avtorja na njegovem naslovu.
Ključne besede: mrežni slovar | slovenski slovar | hierarhija pomenov | drevo odločitev | pomenske zveze | osebek/predmet

Jure Zupan: The Concept of the Semantic Network Dictionary of Slovene Words. Jezik in slovstvo. 3–4/2009. 139–151.
The article presents the possibility of linking words and looking them up according to meanings, which is not possible in printed dictionaries. The advantages and possibilities offered by a dictionary organised in this way are described and a working version of a network organised dictionary of Slovene words in computer accessible form is presented. The purpose of the network dictionary presented is to offer users information about individual words not only in the sense of lemmatisation (of a dictionary headword), in which not only the word class of the treated word is stated but also the semantically connected words of a broad and narrow meaning. In the described working version more than 5000 words are ordered in a semantic network, most of them nouns. The working version is available to users on a CD that can be obtained by interested readers from the author at his address.
Keywords: network dictionary | Slovene dictionary | hierarchy of meanings | tree of decisions | semantic links | subject/object