Īsi par tviterapjomu
Pagājušās nedēļas nogales swedbankingu visi atcerās, ne? Bija doma, ka varētu ievākt to, kas ir uz šo atslēgas vārdu (“swedbank”) noticis tviterī. Aha, you wish.
Sāku, protams, vakar ar vienkāršu tvitera meklēšanas API sagremošanu. Pāris minūšu laikā sapratu, ka maksimālā caur šo API saņemamo tvītu robeža (1500 tvīti) no rīta sasniedzās stundas laikā. Piemēram, laika posmā no pirmdienas 06:12 līdz 11:35 vien savācās 1500 gab. Labi, par to visu aizmirsu.
Šodien tviterī Ernests anonsēja un Kaspars iepazīstināja ar 4307 tvītiem, kuri savākti laika posmā no 6. decembra plkst 11:37 līdz 12. decembra 01:59. Tas šķita stipri par maz, jo svētdienā pīķa stundā tvitera meklētājs atgrieza 10-30 tvītus sekundē, bet pirmdienas rītā 5 stundu laikā vien bija jau 1500. Pat, ja pieņem, ka tie 10-30 gabali sekundē bija vienkāršs pīķis, aizvien 4k tvītu pa visu nedēļu šķiet mazāk nekā vajadzētu.
Galu galā, uzrakstīt e-pastu neko nemaksā un prasa 2 minūtes. Sazinājos ar Datasift par iespēju šādu datu kopu izeksportēt. Kā jau minēju - “aha, you wish”. Lai arī ļoti laipni un e-pastā ieinteresēti par konkrēto gadījumu, viņi tomēr beigu beigās atvainojās, un paziņoja, ka šādu datu sagatavošana (filtrs pēc vārda “swedbank”, laika periods - pagājušā nedēļa) maksātu nieka... 10 līdz 15 tūkstošus ASV dolāru.
No sākuma samulsu un sāku jau domāt, ka viņi mani nes cauri, bet tad atcerējos gluži nesen lasīto rakstu par šīs kompānijas datu apstrādes aspektiem, ka pie tik milzīgiem datu apjomiem tomēr stājas spēkā datu apstrādes relativitātes teorija.
Un tik tiešām, ja padomā, ka dati primāri tiek apstrādāti strīmu filtru veidā, tad šāds pieprasījums pat par “tik tikko takš” laika periodu prasa ne tikai laiku, bet arī resursus - kā cilvēku tā mašīnlaiku (kāds vēl tādu atcerās?:). 250 miljoni tvītu dienā ar pīķiem 120 tūkstoši tvītu sekundē. Viņi taisās piedāvāt vēsturisko datu atlasi nākamgad (sākumā sešas dienas vēsturē, vēlāk - divus gadus), bet, spriežot pēc piedāvātās cenas, tas nebūs sevišķi lēts prieks.
Tiem, kas jautās - a ko tu ar šito darītu? A, neko. Vakarā pabakstītos, papētītu. Oriģinālo datu masīvu izliktu publiski (to minēju sarakstē ar Datasift) as-is. Lai jau mūsu latviešu analītiķi ķerās pie darba un papēta tādu kā tvitera baumu anatomiju. Saprotams, ka patiesie vaininieki slēpjas offlainā un aiz anonīmām zivtiņām, bet tomēr - šāds datu masīvs varētu būt pietiekami interesants un pateicīgs izpētes objekts gan tādam parastam mirstīgjam kā es, gan kādam akadēmiski orientētam prātam.
Krotow
2011. gada 13. decembrī, plkst. 16:08
Nolēmi veikt neatkarīgu gadījuma izmeklēšanu vai palīdzēt izmeklēšanai attiecīgām iestādēm? Esi pārliecināts, ka viņi varbūtības teorijas ietvaros nelasa tavu blogu? Taču lai veicas ;)
Bijušais
2011. gada 13. decembrī, plkst. 16:14
Viņiem ir makten novecojusi lietotāju datubāze - viņi seko tikai cilvēkiem, kas savus tviterus izveidojuši gada pirmajā pusē.
wtff
2011. gada 13. decembrī, plkst. 17:58
This page contains the following errors:
error on line 64 at column 135: error parsing attribute name
sobierski
2011. gada 13. decembrī, plkst. 18:31
"bet tomēr – šāds datu maīvs " kļūda :) no offence - vnk lasot uzdūros :)
laacz Autors
2011. gada 13. decembrī, plkst. 19:45
Sobierski, not anymore! :)
laacz Autors
2011. gada 13. decembrī, plkst. 19:45
wtff: NOT valid indeed :)
wtff
2011. gada 13. decembrī, plkst. 21:52
laacz: tas bija rss'ā
laacz Autors
2011. gada 14. decembrī, plkst. 10:59
Wtff, kādu RSS Tu lieto? Man defaultais laacz.lv/rss redirektējas uz fīdburneri, kur neviena gļuka nav: http://feeds.feedburner.com/laacz
8th Prophet
2011. gada 14. decembrī, plkst. 15:08
"..par šīs kompānijas datu apstrādes aPSketiem.."
Kaspars
2011. gada 18. decembrī, plkst. 20:37
Kaspars Foigts tikko izskanēja iekš ltv1 sakarā ar swedbank