5.00 / 1 oy

Python ve Scrapy ile UTF-8 karakter hatalarını düzeltmek

Python dili ve Scrapy framework'ü ile bir web crawler yazdığınızda taradığınız sonuçları terminalde görüntülemek yerine doğrudan json, csv, xml gibi formatlarda export edebildiğimizi paylaşmıştım, by yazıda da baı sayfalarda karşılaşabileceğiniz karakter sorunları için uygulamanız gereken basit bir çözüm paylaşacağım.

Örneğin json formatında export ettiğiniz bir scraping işlemi sonucunda \u0628\u0627 gibi okunduğunda anlamsız olan sözcükler görüyorsanız, bu hatanın çözümü encoding olarak utf-8 seçmenizdir. Bunun için de settings.py dosyasını açın ve dosyanın en sonuna aşağıdaki satırı ekleyin.

FEED_EXPORT_ENCODING = "utf-8"

Artık karakter dönüşümleri utf-8'e göre yapılacağı için tüm o anlamsız sözcükler ilgili karakterlere dönüştürülerek yazdırılacaktır.

 

Editör editi: sitedeki bazı diğer benzer başlıklar için;

bkz: Scrapy sonuçlarını export etmek (json, xml, csv)

bkz: Scrapy ile yeni bir proje açmak

bkz: Web Scraping Nedir?

bkz: Scrapy Nedir ve Nasıl Kullanılır?

bkz: Selenium nedir?

bkz: Splash browser nedir?

bora34

03.06.2021 02:09

Bu soru henüz yanıtlanmamış.

Bu soruya sadece kayıtlı kullanıcılar yanıt yazabilirler. Yanıt yazmak için lütfen giriş yapınız.

Reitix
Python ve Scrapy ile UTF-8 karakter hatalarını düzeltmek

İnternet sitemizdeki deneyiminizi iyileştirmek için çerezler kullanıyoruz. Bu siteye giriş yaparak çerez kullanımını kabul etmiş sayılıyorsunuz. Daha fazla bilgi.