← Uz sākumu

Rakstiet, es jums saku

2015. gada 6. janvārī, 12 komentāri

Līdzīgi Ziedonim, kurš [citus] aicināja dziedāt, es mēģinu [sevi] aicināt rakstīt. Erm. Laikam nav līdzīgi... Runā, ka rakstītā vārda bižu pīšanas mākslu nekā savādāk neizkopt, kā tikai un vienīgi rakstot. Tāpēc sēžu tagad pie ne pārāk tīri baltās klaviatūras un grasos uzrakstīt kaut ko par jebko.

Quantity produces quality. If you only write a few things, you're doomed

-- Ray Bradbury

Nepretendēju kļūt par rakstnieku. Pasarg dies. Man nekādi nav pārliecības, ka es spētu uzrakstīt kaut ko garāku par studiju darbu - nedz es pēc nedēļas atcerētos sākumu, nedz spētu izvairīties no episkām sižetiskām kļūdām. Ko tur daudz - es nereti jau pēc pāris stundām esmu aizmirsis to, ko rakstīju ieraksta sākumā. Tādai riktīgai rakstīšanai ir nepieciešamas trīs lietas.

  • Vēlme veltīt tam milzumu laika.

  • Autoru reāli aizrāvusi ideja. * Iepriekšēja materiālu vākšana (cilvēki, bibliotēka, internets). * Būt vienam kādā vietā, kur nekas tevi netraucē.

Es jau tā arī gribēju teikt - četras lietas. Nē, man ir svarīgākas štelles, ko darīt. Piemēram, nerakstīt grāmatu. Bet, pag`. Vai tad man nav blogs? Kā būtu, ja mēs vismaz aptuveni aplēstu te sarakstīto?

Tātad, sāksim ar vienkāršāko. Šajā lapiņā kopš 2002. gada ir 5699 publicētu ierakstu un 226 nepublicētu (rakstu idejas, aktualitāti un spraigumu zaudējuši teksti). Mana rakstošā daiļrade gan neaprobežojās tikai ar šo lapu, bet, diemžēl, fakti ir zuduši un visu šo gadu gaitā noteikti ir saklabināts baiss daudzums visa kā, ko it nemaz negribās pat atcerēties...

Atgriežoties pie laacz.lv satura, izeksportēsim to, mazliet izmetot lieko un atstājot tikai tekstu:


mysql -e "select post\_content as '' from wp\_posts where post\_status = 'publish'\\G" laacz \| sed 's\|\|-\|g' \| sed 's\|<[^>]*>\|\|g' \| grep -v row >laacz.lv.txt ```

Saskaitīsim vārdus (*wc* ir no *word count*, nevis tualetes).

```bash

$ wc laacz.lv.txt 39552 452320 2464058 laacz.lv.txt ````

Augstāk minētais nozīmē, ka publicētajos ierakstos ir apmēram 450 tūkstoši vārdu un teju divarpus miljoni (miljoni!) burtu puslīdz tīra teksta.

Tā kā populāri ir visu mērīt kompaktdiskos, tad neformatēta mana bloga satura ierūmēšanai būtu nepieciešami neticami ... neticams ... neticama ... 1/170 daļa kompaktdiska... Mazliet labāk izklausās trīs 1.44MB disketes. Ja tās sakrāmētu vienu uz otras, tad kopējais to augstums sasniegtu ārprātīgus 500 milimetrus (saleikot sāniski un uz nomērīšanas brīdi mazliet pieturot ar roku)!

Lai gan augstvērtības ziņā šis saturs mazliet iepaliek, tomēr esmu būtiski ielicis [Mērnieku laikiem](http://www.korpuss.lv/klasika/Senie/Kaudz/BKsat.htm), kuri satur nieka 160 tūkstošus vārdu, kas saveidoti no viena paša smieklīga miljona burtu.

```bash

$ wc mernieku-laiki.txt 14374 162136 1107190 mernieku-laiki.txt ```

Labi, salīdzinājums ar klasiķiem bija lieks, jo ne uz ko nenorāda. Tāpēc turpināsim nodarboties ar muļķībām un izvilksim pāris datus par izmantoto vārdu klāstu. Savos tiešsaistes darbos esmu izmantojis ap septiņdesmit tūkstošiem dažādu burtu kombināciju (vārdi dažādos locījumos tiek skaitīti kā dažādi). Brāļi Kaudzītes, savukārt, ir pamanījušies savā četreiz īsākajā darbā iekļaut 22 tūkstošus dažādu burtu salikumu.

Es domāju, ka diez vai brāļiem bija tik inovatīvi vārdi kā man - savulaik tik makten spriganam endzelīniņam:

![Endzelīns nevaid miris!](https://laacz.lv/f/img/laacz-lv-leksikons.jpg)

Lai pārliecinātos, ka esmu vienā līmenī ar meistariem, nolēmu salīdzināt vidējo izmantotā vārda garumu tekstā. Šķiet, ka manī tomēr mīt mēreni logaritmiska konsekvence, kamēr Kaudzītes ir nodevušies šķietami agresīvi augstas pakāpes polinomālai tendencei. Iespējams, ka pie vainas ir fakts, ka viņu laikā par *Long tail* īsti neviens nerunāja. Mērnieku laikos uzskatāmi dominē īsāki vārdi, lai gan latviešu valodā diez ko izvērsties arī nav vēlams. Mans un slaveno autoru līdzsvars ir novērojams vietā, kurš atrodas abu līkņu krustpunktā - starp sešus un septiņus burtus gariem vārdiem. Vidējais vārda garums abiem ir vienāds - pieci burti (5.4 man, 5.0 viņiem).

![Vārdu sadalījums pēc garuma ir diezgan līdzīgs.](https://laacz.lv/f/img/vardu-garums.png)

No šiem piecburtu vārdiem Mērnieku laiku lietotāko vārdu topa pirmajās vietās "tagad", "atkal", "vairs", "viņam", "tomēr", un "tādēļ", kamēr laacz.lv publika noteikti novērtēja populārās piecburtu kombinācijas "tikai", "daudz", "viens", "tagad", "starp" un "laiku".

Kā redzam, ir pierādīts, ka no manis rakstnieks nesanāk. Viss sarakstītais ir sīki un lielākoties nesaistīti tekstiņi, un to ir tikai divtik, cik viena pati grāmata par kaut kādiem mērnieku laikiem. Lai jau tas *[the most prolific writer](http://en.wikipedia.org/wiki/List\_of\_prolific\_writers)* tituls tiek citiem. Piemēram, 1927. gadā dzimušajam *María del Socorro Tellado López*, kurš savas dzīves laikā pamanījās sarakstīt vairāk nekā 4000 (jā, tūkstošus) noveļu. Ja ticēt internetam, tad vidusmēra novelē ir vismaz 40000 vārdu. Rēķini pats.

Tu atbildi augstāk redzamajam komentāram. Atcelt

Gravatar Papuass

2015. gada 6. janvārī, plkst. 01:54

Lai pamērītos, te ir nedaudz vizuālas statistikas no latviskās Vikipēdijas (ideja nokopēta): https://lv.wikipedia.org/wiki/Vikip%C4%93dija:Izm%C4%93rs_s%C4%93jumos

Tur sanāk vairāk kā 15 miljoni vārdu.

Gravatar deni2s

2015. gada 6. janvārī, plkst. 01:57

Varēji vismaz infografiku uzzīmēt ar tām disketēm. Bet vispārīgi, ne jau vārdu daudzumā ir tā sāls, bet pareizā to izvēlē, tad arī visu labāko var izlasīt starp rindiņām.

Gravatar Mr. Serge

2015. gada 6. janvārī, plkst. 07:10

Malacītis. Raženi pastrādāts. Vēl varēji vienu papildus salīdzinājumu uztaisīt: cik proporcionāli tu ar Kaudzītēm vienādus vārdus esi lietojis (neatkarīgi no vārda vai tā locījuma izmantošanas biežuma).

Gravatar Juris

2015. gada 6. janvārī, plkst. 09:09

Ideja nākamajam rakstam un /vai diskusijai: Labās prakses kodekss tiem, kuri publicējas Nekurā.

Gravatar deni2s

2015. gada 7. janvārī, plkst. 10:24

+1, jo es nespēju saprast, kāpēc no nekura netiek izmests tas blogs, kas regulāri spamo sviestu par kredītiem.

Gravatar laacz Autors

2015. gada 7. janvārī, plkst. 11:06

Šos gadījumus vēlams ziņot man (laacz iz laacz taška elvē), jo pats nekurā ieskatos diezgan reti.

Gravatar cyxob

2015. gada 6. janvārī, plkst. 09:46

Lielākais spēks būtu, ja to visu apstrādātu ar R. Kāds LV vispār šo valodu šķil?

Gravatar labi

2015. gada 6. janvārī, plkst. 14:52

Latvijā dažās augstskolās (vismaz RTU un LU) noteikti māca R valodu, saistībā ar datizraci (data mining).

Gravatar ek

2015. gada 6. janvārī, plkst. 13:08

hmm... kā ar 3 disketēm samērīt 500mm? viena diketes mala ~90mm, jeb diagonāle ap ~130mm

Gravatar Matīss

2015. gada 9. janvārī, plkst. 13:52

Vēl būtu interesanti redzēt datus, cik katru gadu ir sarakstīts. Piemēram, 2014. gadā 53. raksti un 35 000 vārdu un to smuki info grafikā attēlot. :)

Gravatar niitro

2015. gada 21. janvārī, plkst. 22:26

Angļu valodas vārds “novel” tulkojumā ir “romāns”. Novele ir “novella”. :)

Gravatar Toms

2015. gada 3. februārī, plkst. 15:25

Bija pasen atpakaļ raksts par ebay tirgotām grāmatām, kuras tiek veidotas vārds vārdā izkopējot tekstu no vikipēdijas. Ja kāds gribētu varētu uztaisīt arī no laacz rakstiem grāmatu, tikai temati pārāk dažādi. Jebkurā gadījumā sarakstīts ir daudz, būtu laiks to kaut kā sistematizēt pa kategorijām un ielikt bloga sānā. Vecie raksti nereti ir galvas tiesu pārāki par jaunajiem.