laacz

laacz te un tur.

Īsi par tviterapjomu

10 komentāri

Pagājušās nedēļas nogales swedbankingu visi atcerās, ne? Bija doma, ka varētu ievākt to, kas ir uz šo atslēgas vārdu (swedbank) noticis tviterī. Aha, you wish.

Sāku, protams, vakar ar vienkāršu tvitera meklēšanas API sagremošanu. Pāris minūšu laikā sapratu, ka maksimālā caur šo API saņemamo tvītu robeža (1500 tvīti) no rīta sasniedzās stundas laikā. Piemēram, laika posmā no pirmdienas 06:12 līdz 11:35 vien savācās 1500 gab. Labi, par to visu aizmirsu.

Šodien tviterī Ernests anonsēja un Kaspars iepazīstināja ar 4307 tvītiem, kuri savākti laika posmā no 6. decembra plkst 11:37 līdz 12. decembra 01:59. Tas šķita stipri par maz, jo svētdienā pīķa stundā tvitera meklētājs atgrieza 10-30 tvītus sekundē, bet pirmdienas rītā 5 stundu laikā vien bija jau 1500. Pat, ja pieņem, ka tie 10-30 gabali sekundē bija vienkāršs pīķis, aizvien 4k tvītu pa visu nedēļu šķiet mazāk nekā vajadzētu.

Galu galā, uzrakstīt e-pastu neko nemaksā un prasa 2 minūtes. Sazinājos ar Datasift par iespēju šādu datu kopu izeksportēt. Kā jau minēju – aha, you wish. Lai arī ļoti laipni un e-pastā ieinteresēti par konkrēto gadījumu, viņi tomēr beigu beigās atvainojās, un paziņoja, ka šādu datu sagatavošana (filtrs pēc vārda swedbank, laika periods – pagājušā nedēļa) maksātu nieka… 10 līdz 15 tūkstošus ASV dolāru.

No sākuma samulsu un sāku jau domāt, ka viņi mani nes cauri, bet tad atcerējos gluži nesen lasīto rakstu par šīs kompānijas datu apstrādes aspektiem, ka pie tik milzīgiem datu apjomiem tomēr stājas spēkā datu apstrādes relativitātes teorija.

Un tik tiešām, ja padomā, ka dati primāri tiek apstrādāti strīmu filtru veidā, tad šāds pieprasījums pat par tik tikko takš laika periodu prasa ne tikai laiku, bet arī resursus – kā cilvēku tā mašīnlaiku (kāds vēl tādu atcerās?:). 250 miljoni tvītu dienā ar pīķiem 120 tūkstoši tvītu sekundē. Viņi taisās piedāvāt vēsturisko datu atlasi nākamgad (sākumā sešas dienas vēsturē, vēlāk – divus gadus), bet, spriežot pēc piedāvātās cenas, tas nebūs sevišķi lēts prieks.

Tiem, kas jautās – a ko tu ar šito darītu? A, neko. Vakarā pabakstītos, papētītu. Oriģinālo datu masīvu izliktu publiski (to minēju sarakstē ar Datasift) as-is. Lai jau mūsu latviešu analītiķi ķerās pie darba un papēta tādu kā tvitera baumu anatomiju. Saprotams, ka patiesie vaininieki slēpjas offlainā un aiz anonīmām zivtiņām, bet tomēr – šāds datu masīvs varētu būt pietiekami interesants un pateicīgs izpētes objekts gan tādam parastam mirstīgjam kā es, gan kādam akadēmiski orientētam prātam.

Šie ir tie 10 komentāri (pievienot savu)

#1 Krotow

Nolēmi veikt neatkarīgu gadījuma izmeklēšanu vai palīdzēt izmeklēšanai attiecīgām iestādēm? Esi pārliecināts, ka viņi varbūtības teorijas ietvaros nelasa tavu blogu? Taču lai veicas ;)

#2 Bijušais

Viņiem ir makten novecojusi lietotāju datubāze – viņi seko tikai cilvēkiem, kas savus tviterus izveidojuši gada pirmajā pusē.

#3 wtff

This page contains the following errors:

error on line 64 at column 135: error parsing attribute name

#4 sobierski

“bet tomēr – šāds datu maīvs ” kļūda :) no offence – vnk lasot uzdūros :)

#5 laacz

Sobierski, not anymore! :)

#6 laacz

wtff: NOT valid indeed :)

#7 wtff

laacz: tas bija rss’ā

#9 8th Prophet

“..par šīs kompānijas datu apstrādes aPSketiem..”

#10 Kaspars

Kaspars Foigts tikko izskanēja iekš ltv1 sakarā ar swedbank

Iesniegt savu viedokli

Atruna par moderāciju. Daži vārdi, var gadīties, ka ir iz melnās listes (viagra and stuff). Tādi komentāri tiek aizturēti, pirms parādās lapā. Ja Tavs komentārs neparādās uzreizi, būs vien jāpagaida, līdz es jamo izlasīšu. Protams, ka paturu tiesības sev netīkošos komentārus dzēst, iemeslu neminot.