Īsi par tviterapjomu

2011. gada 13. decembrī | 10 komentāri

Pagājušās nedēļas nogales swedbankingu visi atcerās, ne? Bija doma, ka varētu ievākt to, kas ir uz šo atslēgas vārdu (“swedbank”) noticis tviterī. Aha, you wish.

Sāku, protams, vakar ar vienkāršu tvitera meklēšanas API sagremošanu. Pāris minūšu laikā sapratu, ka maksimālā caur šo API saņemamo tvītu robeža (1500 tvīti) no rīta sasniedzās stundas laikā. Piemēram, laika posmā no pirmdienas 06:12 līdz 11:35 vien savācās 1500 gab. Labi, par to visu aizmirsu.

Šodien tviterī Ernests anonsēja un Kaspars iepazīstināja ar 4307 tvītiem, kuri savākti laika posmā no 6. decembra plkst 11:37 līdz 12. decembra 01:59. Tas šķita stipri par maz, jo svētdienā pīķa stundā tvitera meklētājs atgrieza 10-30 tvītus sekundē, bet pirmdienas rītā 5 stundu laikā vien bija jau 1500. Pat, ja pieņem, ka tie 10-30 gabali sekundē bija vienkāršs pīķis, aizvien 4k tvītu pa visu nedēļu šķiet mazāk nekā vajadzētu.

Galu galā, uzrakstīt e-pastu neko nemaksā un prasa 2 minūtes. Sazinājos ar Datasift par iespēju šādu datu kopu izeksportēt. Kā jau minēju — “aha, you wish”. Lai arī ļoti laipni un e-pastā ieinteresēti par konkrēto gadījumu, viņi tomēr beigu beigās atvainojās, un paziņoja, ka šādu datu sagatavošana (filtrs pēc vārda “swedbank”, laika periods — pagājušā nedēļa) maksātu nieka… 10 līdz 15 tūkstošus ASV dolāru.

No sākuma samulsu un sāku jau domāt, ka viņi mani nes cauri, bet tad atcerējos gluži nesen lasīto rakstu par šīs kompānijas datu apstrādes aspektiem, ka pie tik milzīgiem datu apjomiem tomēr stājas spēkā datu apstrādes relativitātes teorija.

Un tik tiešām, ja padomā, ka dati primāri tiek apstrādāti strīmu filtru veidā, tad šāds pieprasījums pat par “tik tikko takš” laika periodu prasa ne tikai laiku, bet arī resursus — kā cilvēku tā mašīnlaiku (kāds vēl tādu atcerās?:). 250 miljoni tvītu dienā ar pīķiem 120 tūkstoši tvītu sekundē. Viņi taisās piedāvāt vēsturisko datu atlasi nākamgad (sākumā sešas dienas vēsturē, vēlāk — divus gadus), bet, spriežot pēc piedāvātās cenas, tas nebūs sevišķi lēts prieks.

Tiem, kas jautās — a ko tu ar šito darītu? A, neko. Vakarā pabakstītos, papētītu. Oriģinālo datu masīvu izliktu publiski (to minēju sarakstē ar Datasift) as-is. Lai jau mūsu latviešu analītiķi ķerās pie darba un papēta tādu kā tvitera baumu anatomiju. Saprotams, ka patiesie vaininieki slēpjas offlainā un aiz anonīmām zivtiņām, bet tomēr — šāds datu masīvs varētu būt pietiekami interesants un pateicīgs izpētes objekts gan tādam parastam mirstīgjam kā es, gan kādam akadēmiski orientētam prātam.

Ierakstiem, kas vecāki par 42 dienām, komentēšanas iespēja tiek slēgta. Ja Tev aizvien ir ko teikt, dod ziņu jebkurā veidā, kurš norādīts teitan.

Krotow

2011. gada 13. decembrī, plkst. 16:08

Nolēmi veikt neatkarīgu gadījuma izmeklēšanu vai palīdzēt izmeklēšanai attiecīgām iestādēm? Esi pārliecināts, ka viņi varbūtības teorijas ietvaros nelasa tavu blogu? Taču lai veicas ;)

↑Atbildēt