5.00 / 1 oy

Web Scraping Nedir?

Web scraping, internet sitelerinden yazı, görsel, video ya da mail adresi gibi belli formdaki içerikleri tarayarak almak anlamına gelmektedir. Web scraping işlemi, genellikle bu amaç için hazırlanmış araçlarla ya da programlarla toplu olarak yapılır. Önceden bir sayfanın yapısı (css, xpath vb) web scraper adı verilen programlara tanımlanır ve ilgili internet sitelerinden istenilen alanların tüm sayfalarda toplu olarak (bazen düzenli olarak) alınması amaçlanır. Kısaca web sitelerinden veri almak olarak da tanımlanabilir.

İnternet sitelerinden içerik alabilmek için kendi programlarınızı da geliştirebilir ve html yapıları içinden istediğiniz alanları indirebilen (ya da isteğe bağlı olarak veritabanına yazdıran) uygulamalar yazabilirsiniz. Ancak artık internet siteleri sadece HTML formunda olmadığı için (javascript ile hazırlanmış ve açıldıktan sonra yükleme işlemlerini gerçekleştiren framework'ler sıklıkla kullanılıyor) dünyayı sıfırdan keşfetmek yerine bu amaçlarla geliştirilen kütüphaneleri ve programları kullanmayı tercih etmeniz yararınıza olacaktır. Web scraping işlemi için en sık kullanılan programlar:  Scrapy, Splash, Beautiful Soup, Selenium gibi programlardır.

Not: internet siteleri, arama motorlarının ve diğer botların sitelerini taramasını istemesi ve istememesi durumlarına bağlı olarak robots.txt dosyalarını düzenlerler. Etik olarak yazılan scraper'larda ve spider'larda robots.txt dosyasında izin verilmeyen dizinlere erişim sağlanmaması gerekir.

Not 2: Eğer bir projenizde web scraper yazarak bir ya da daha fazla internet sitesini düzenli olarak tarayacaksanız, hem internet sitesi üzerinde oluşturacağınız yük; hem de verilerin sürekli erişimi nedenlerinden dolayı User-Agent altında kendinizi tanıtmanız ve sitenin bilgisi dahilinde tarama yapmanız yerinde olacaktır.

bkz: Scrapy Nedir ve Nasıl Kullanılır?

Web Scraping konusuna uygulamalı olarak girmek ve bu programların nasıl kullanılabileceklerini paylaşmak istiyorum. Ancak başlamadan önce sitede paylaştığım bazı diğer yazılar için:

bkz: internet sitesi için nereden wikipedia şablonu bulabilirim?

bkz: HTML'de img loading="lazy" özelliği nasıl kullanılır?

bkz: FileZilla'daki Kayıtlı Şifre Nasıl Öğrenilir?

bkz: Base64 Encoding Nedir ve Nasıl Decode Edilir?

bkz: HTML ve CSS ile Yazının Başına ve Sonuna Karakter Eklemek (Before After)

bora34

16.03.2021 10:33

Bu soru henüz yanıtlanmamış.

Bu soruya sadece kayıtlı kullanıcılar yanıt yazabilirler. Yanıt yazmak için lütfen giriş yapınız.

Reitix
Web Scraping Nedir?

İnternet sitemizdeki deneyiminizi iyileştirmek için çerezler kullanıyoruz. Bu siteye giriş yaparak çerez kullanımını kabul etmiş sayılıyorsunuz. Daha fazla bilgi.