Raspagem na Web é o ato de extrair dados, informações ou imagens de um site usando um método automatizado. Pense nisso como copiar e colar totalmente automático.
Nós escrevemos ou usamos um aplicativo para acessar os sites que queremos e fazer uma cópia das coisas específicas que queremos desses sites. É muito mais preciso do que baixar um site inteiro.
Como qualquer ferramenta, a raspagem da web pode ser usada para o bem ou para o mal. com base em seu conteúdo, compras de comparação de preços ou informações de mercado de monitoringstock. Você pode até usá-lo como uma ferramenta de pesquisa.
Como posso raspar sites com Excel?
Acredite ou não, o Excel teve a capacidade de extrair dados de sites por um longo tempo, pelo menos desde o Excel 2003. É exatamente isso webscraping é algo que a maioria das pessoas não pensa, e muito menos pensa em usar um programa como planilha para fazer o trabalho. Mas é surpreendentemente fácil e poderoso. Vamos aprender como é feito criando uma coleção de atalhos de teclado do Microsoft Office.
Encontre os sites que você deseja raspar
A primeira coisa que vamos fazer fazer é encontrar as páginas da web específicas das quais queremos obter informações. Vamos para a fonte e pesquise em https://support.office.com/. Usaremos o termo de pesquisa "atalhos usados com frequência". Podemos torná-lo mais específico usando o nome do aplicativo específico, como Outlook, Excel, Word e assim por diante. Pode ser uma boa idéia marcar a página de resultados para que possamos voltar facilmente para lá.
Clique no resultado da pesquisa, "Atalhos de teclado no Excel forWindows". Uma vez nessa página, encontre a lista de versões do Excel e clique em Versões mais recentes. Agora estamos trabalhando com os melhores e mais recentes.
Poderíamos voltar à nossa página de resultados de pesquisa e abrir os resultados para todos os outros aplicativos do Office em suas próprias guias e marcá-los como favoritos. É uma boa ideia, mesmo para este exercício. É aqui que a maioria das pessoas para de coletar atalhos do Office, mas não nós. Vamos colocá-los no Excel para que possamos fazer o que quisermos com eles, sempre que quisermos.
Abra o Excel e Raspe
Abra o Excel e inicie uma nova pasta de trabalho. Salve a pasta de trabalho como Atalhos do Office. Se você tiver o OneDrive, salve-o lá para que o recurso AutoSalvarfuncione.
Depois que a pasta de trabalho for salva, clique na guia Dados.
Na faixa de opções da guia Dados, clique em Da web.
A janela do assistente Da Webserá aberta. É aqui que colocamos o endereço da Web ou o URL do site a partir do qual queremos coletar dados. Mude para o seu navegador e copieo URL.
Cole o URL no URLcampo do assistente Da Web. Poderíamos optar por usar isso no modo Básicoou Avançado. O modo Avançado nos oferece muito mais opções sobre como acessar os dados do site. Para este exercício, precisamos apenas do modo Basic. Clique em OK.
Agora, o Excel tentará se conectar ao site. Isso pode demorar alguns segundos. Veremos uma janela de progresso, se houver.
A janela Navigatorserá aberta e veremos uma lista de tabelas do site à esquerda.Quando selecionamos uma, veremos uma prévia da tabela na direito. Vamos selecionar a tabela Atalhos usados com freqüência.
Podemos clicar na guia WebViewpara ver o site real, se precisarmos procurar a tabela que queremos. Quando o encontrarmos, podemos clicar nele e ele será selecionado para importação.
Agora, clicamos no botão Carregarna parte inferior desta janela. Existem outras opções que poderíamos escolher, que são mais complexas e estão além do escopo de executar nosso primeiro rascunho. Apenas tenha cuidado para que eles estejam lá. Os recursos de raspagem da Web do Excel são muito poderosos.
A tabela da Web será carregada no Excel após alguns segundos. Vamos ver os dados à esquerda, onde o número 1está na figura abaixo. O número 2destaca a Consultausada para obter os dados do site. Quando temos várias consultas em uma pasta de trabalho, é aqui que selecionamos a que precisamos usar.
Observe que os dados entram na planilha como uma tabela Excel. Já está configurado para podermos filtrar ou classificar os dados.
Podemos repetir esse processo para todas as outras páginas da Web que possuem os atalhos do Office que queremos para Outlook, Word, Access, PowerPoint, e qualquer outro aplicativo do Office.
Mantendo os dados raspados atualizados no Excel
Como um bônus para você, vamos aprender como manter os dados coletados no Excel. Essa é uma ótima maneira de ilustrar o quão poderoso o Excel é para a raspagem de dados. Mesmo com isso, estamos apenas fazendo a raspagem mais básica que o Excel pode fazer.
Neste exemplo, vamos usar uma página da Web de informações sobre ações como https://www.cnbc.com/stocks/.
Analise o que fizemos antes e copie e cole o novo URL da barra de endereço.
Você chegará à janela do Navegador e verá as tabelas disponíveis. Vamos selecionar os principais índices de ações dos EUA.
Depois que os dados forem raspados, veremos a seguinte planilha.
À direita, vemos a consulta dos principais índices de ações dos EUA. Selecione isso para que fique destacado. Verifique se estamos na guia Ferramentas de tabelae na área Design. Em seguida, clique na seta para baixo em Atualizar. Em seguida, clique em Propriedades da conexão.
Na janela QueryProperties, na guia Uso, podemos controlar como essas informações são atualizadas. Podemos definir um período de tempo específico para atualizar ou atualizar quando abrirmos a pasta de trabalho na próxima vez, ou atualizar em segundo plano ou qualquer combinação destes. Depois de escolhermos o que precisamos, clique em OKpara fechar a janela e continuar.
É isso aí! Agora você pode acompanhar os preços das ações, as pontuações esportivas ou qualquer outro dado que seja alterado com frequência em uma planilha do Excel. Se você é bom com Equações e funções do Excel, pode fazer quase tudo o que quiser com os dados.
Talvez tente identificar tendências de ações, administre uma piscina esportiva de fantasia no trabalho ou talvez apenas acompanhe o tempo. Quem sabe? Sua imaginação e os dados disponíveis na Internet são os únicos limites.