A contagem de multidões é uma técnica para estimar o número de pessoas em uma imagem ou em um vídeo. Esse tipo de contagem é um problema de conjunto aberto, ou seja, o número de pessoas que podem estar presentes durante a estimativa pode variar de zero a infinito. Por exemplo, considere esta imagem abaixo e tente prever quantas pessoas estão na foto.

Nesta imagem, há uma densidade muito alta de pessoas, tornando uma tarefa muito grande e desgastante para o nosso cérebro prever com precisão o número total. Se começarmos a contar, digamos, do canto superior esquerdo, indo progressivamente para o lado direito, seria uma tarefa estremamente difícil, onde, na maioria das vezes, iríamos nos perder no meio do caminho. Mas, uma máquina pode fazê-lo. Basta alimentá-la com a lógica e ela aprenderá com as ocorrências (é isso que o Machine Leaning basicamente é) e nos dará a contagem com boa precisão, dentro de uma certa margem de erro.
Métodos de contagem
Desde a percepção deste “problema”, os cientistas de dados veem desenvolvendo soluções com o uso do aprendizado de máquina para detectar a densidade da multidão. Mas tiveram que enfrentar alguns desafios como variações de escala, densidade não uniforme, iluminação não homogênea, etc. Mais tarde, com o advento das Redes Neurais Convolucionais (CNN), esses desafios puderam ser superados e mais atenção foi voltada para o “problema”.
A seguir, discutiremos os principais métodos e técnicas utilizados nos dias de hoje para obter o número aproximado de pessoas em uma multidão.
Métodos baseados na detecção de pessoas
Esta é a abordagem mais simples que existe. Nesse método, usa-se um detector em forma de janela para identificar pessoas em uma imagem ou vídeo e contar o número.
Esses métodos baseados em detecção funcionam bem para detectar rostos, mas não são capazes de fornecer resultados satisfatórios quando uma multidão densa está presente em uma imagem.

Métodos usando regressão linear
O método de contagem por detecção não funciona bem quando há uma multidão densa e a aleatoriedade ou desordem no fundo é alta. Os métodos baseados em regressão podem superar esses desafios, pois podem extrair recursos de baixo nível.
Nesses métodos, as imagens são recortadas e, em seguida, desses recortes são extraídos os recursos de baixo nível, como valores de borda, pixels de primeiro plano, etc.
Os métodos de regressão são capazes de mapear as imagens diretamente para valores escalares. Mas o problema é que eles não são capaz de entender corretamente as distribuições da multidão, o que é superado por métodos baseados em densidade, pois eles realizam regressões pixel a pixel para obter um melhor desempenho do modelo.
Métodos baseados em densidade
Os métodos de estimativa baseados em densidade têm a capacidade de localizar a multidão sem se concentrar em detectar explicitamente cada indivíduo.
Em primeiro lugar, são criados mapas de densidade para os vários objetos. Essa abordagem se concentra na densidade e localização do espaço da multidão, enquanto percorre as imagens e, em seguida, aprende o mapeamento entre recursos locais e mapas de densidade de objetos. O mapa de densidade total dos dados gerais são obtidos pela concatenação dos conjuntos de densidade de objetos discretos. Um regressor de floresta aleatória pode ser usado para aprender os mapeamentos não lineares.
Métodos baseados em redes neurais artificiais convolutivas (CNN)
Desde a chegada das CNN, esses são os métodos mais precisos em relação às outras abordagens discutidas acima. As CNN aprendem a partir dessa uma grande quantidade de imagens. No exemplo abaixo, o modelo converte essas imagens de entrada em mapas de densidade para a contagem.
Imagem original: 258 pessoas | ![]() Mapa de densidade gerado: 232 pessoas contadas |
Como pode ser visto nas imagens acima, a previsão foi bem próxima à quantidade de pessoas contadas manualmente, o que demonstra que a performance do modelo foi bem sucedida.
Conclusão
Como podemos ver, a contagem de multidões tem muitas aplicações, podendo ser usada para alertar as autoridades de saúde se houver uma multidão densa para manter o distanciamento social ou impedir que uma debandada aconteça. A precisão desses modelos vem aumentando muito recentemente, e mais pesquisas vão acontecer neste setor para fazer melhores previsões.
Espero que vocês tenham conhecido as diversas abordagens possíveis para a contagem de multidões e estejam motivados a trabalhar em Deep Learning e Machine Learning.