Final version

2024-05-07 16:17:43 -03:00 · 2024-05-07 16:17:43 -03:00 · 63e275fa2f
commit 63e275fa2f
parent d7fd3dd578
30 changed files with 2918 additions and 5 deletions
--- a/code/exercise-3.py
+++ b/code/exercise-3.py
@ -0,0 +1,24 @@
+import json
+import scrapy
+
+
+class QuotesJSSpider(scrapy.Spider):
+    name = "quotes_js"
+    allowed_domains = ["quotes.toscrape.com"]
+    start_urls = ["https://quotes.toscrape.com/js/"]
+
+    def parse(self, response):
+        raw_quotes = response.xpath("//script").re_first(r"var data = ((?s:\[.*?\]));")
+        quotes = json.loads(raw_quotes)
+        for quote in quotes:
+            yield {
+                "quote": quote.get("text"),
+                "author": quote.get("author").get("name"),
+                "author_url": response.urljoin(
+                    quote.get("author").get("goodreads_link")
+                ),
+                "tags": quote.get("tags"),
+            }
+        yield scrapy.Request(
+            response.urljoin(response.css(".next a::attr(href)").get())
+        )