Scrapers I did for fun

Lista de empresas portuguesas 03/2015

get data [26.3MB] [495512 registos]

Este dataset surgiu de uma conversa sobre ser giro ter uma app que desse para publicar eventos em bares e discotecas. E como é que isso se monetiza? Mas quantos bares há em Portugal? Deve haver maneira de saber.. há um site que permite listar as empresas por cae. Abre-se o site tem 10 registos por pagina de resultados. WHAT?!?!?!Tentei procurar um dataset semelhante era só a pedir para pagar por informação que é suposto ser publica. Porque é que há de ser tão dificil analisar o tecido empresarial português?

O que mais me surpreendeu neste dataset foi o maior numero de empresas por cae estar na construção civil. Talvez seja enganoso, porque não somei os diversos tipos de restaurantes e cafes, mas ainda assim é qualquer coisa.

Há mais de 2000 empresas registadas como fabricantes de calçado. what? eu não sei dizer vá mais de 3 marcas de sapatos. Serão portugueses? Serão vendidos cá? Gostava de ter um directorio de coisas fantásticas feitas em PT. Existem tropecei numa ou noutra no meio dos dados. Desde tapetes a uma empresa que vende oliveiras, até exite uma empresa que fabrica cabos de fibra optica..

Google Play 03/2015

get data [112MB] [1387131 records]

Mostly I wanted to understand what would my odds be, as a mobile dev, of making any money. Looking at the data, I rapidly understood any notion of a meaningful "average" where frivolous. It's a universe of all or nothing, quite logarithmic in nature. A sea of lower quality, amateur apps. The sheer number of apps is an obstacle. A computer - however ocious in hopes of not upseting google's firewal :P - can hope to visit about 200k apps in 24h. That's 5 round the clock days to reach 1M. How long would it take a human to go through it all? Assuming a 16 hour/day , 1 minute per app that's 960 apps per day. 500k apps , well bellow half the total number of apps, would require 520 days of continuous effort. Who would want to spend about 2 years 16/h a day looking at apps no matter how awesome? You might assume the harder part of mobile dev is mobile dev. But how do you get your great app in front of people? That's a big part of the game, more of an art than science so far.

Scraping the Google play store can be a little chalenging if you don't have access to a proxy server, or a distributed network. But it can be done, and it's not to hard to build an algorithm that will get some 1M + apps in about a week.

Here's my simple approach:

Theme Forest Scraper -2014 - deprecated

get data [1.7MB][7645 records]

Wanted to know what the odds of succeding at themeforest where. Another beautiful example of the power law. Considerably smaller dataset though, higher quality of bottoms here. Couldn't really understand why some templates did so poorly. Probably their interface has many good reasons to be as it is, but I needed something a little more "wide" and visual, so I did my own