[Hỏi] Hàm xử lý dữ liệu trong Scrapy Python giống như HTML DOM trong PHP



  • Em muốn xử lý dữ liệu sau khi crawl về bằng Scrapy nhưng không biết phải sử dụng hàm nào trong Scrapy.

    Nội dung em muốn xử lý như sau:

    • xóa tất cả css trong dữ liệu crawl về, chỉ dữ lại thẻ tag thôi
    • loại bỏ tất cả đường link trong text
    • loại bỏ tất cả thẻ span trong html (không làm thay đổi nội dung)
      ........

    Nhưng cái này bên PHP thì sử dụng HTML DOM làm rất ok, nhưng đối với scrapy thì em chưa biết dùng như thế nào.

    Mong các Pro chỉ giáo


Hãy đăng nhập để trả lời
 

Có vẻ như bạn đã mất kết nối tới Cộng đồng Python Việt Nam, vui lòng đợi một lúc để chúng tôi thử kết nối lại.