ซุปแสนอร่อย (ตัวแยกวิเคราะห์ HTML)

ซุปแสนอร่อย
ซุปแสนอร่อย
ผู้เขียนต้นฉบับ	ลีโอนาร์ด ริชาร์ดสัน
ปล่อย	2004
เวอร์ชันเสถียร	4.14.3 / 30 พฤศจิกายน 2025
เขียนเป็น	ไพธอน
แพลตฟอร์ม	ไพธอน
พิมพ์	ไลบรารีตัวแยกวิเคราะห์ HTML , การดึงข้อมูลจากเว็บ
ใบอนุญาต	ใบอนุญาต Python Software Foundation (Beautiful Soup 3); ใบอนุญาต MIT (เวอร์ชัน 4 ขึ้นไป) ;
เว็บไซต์	www.crummy.com/software/BeautifulSoup/
ที่เก็บข้อมูล	โค้ด.launchpad .net /beautifulsoup /;

Beautiful Soupเป็น แพ็กเกจ Pythonสำหรับการแยกวิเคราะห์ เอกสาร HTMLและXMLรวมถึงเอกสารที่มีมาร์กอัปผิดรูปแบบ โดยจะสร้างแผนผังการแยกวิเคราะห์สำหรับเอกสารที่สามารถใช้ในการดึงข้อมูลจาก HTML ^{[ 3 ]}ซึ่งมีประโยชน์สำหรับการดึงข้อมูลจากเว็บ^{[ 2 ]}^{[ 4 ]}

ประวัติศาสตร์

Beautiful Soup เริ่มต้นในปี 2004 โดย Leonard Richardson ชื่อนี้มาจากบทกวีBeautiful SoupจากAlice's Adventures in Wonderlandและเป็นการอ้างอิงถึงคำว่า " tag soup " ซึ่งหมายถึงโค้ด HTML ที่มีโครงสร้างไม่ดี^{[ 5 ]} Richardson ยังคงมีส่วนร่วมในโครงการนี้^{[ 6 ]}ซึ่งได้รับการสนับสนุนเพิ่มเติมจากผู้ดูแลโอเพนซอร์สที่ได้รับค่าตอบแทนจากบริษัท Tidelift ^{[ 7 ]}

เวอร์ชัน

Beautiful Soup 3 เป็นเวอร์ชันอย่างเป็นทางการของ Beautiful Soup ที่วางจำหน่ายตั้งแต่เดือนพฤษภาคม 2549 ถึงเดือนมีนาคม 2555 ส่วนเวอร์ชันปัจจุบันคือBeautiful Soup 4.x

ในปี 2021 การสนับสนุน Python 2.7 ถูกยกเลิก และเวอร์ชัน 4.9.3 เป็นเวอร์ชันสุดท้ายที่รองรับ Python 2.7 ^{[ 8 ]}

การใช้งาน

Beautiful Soup แสดงข้อมูลที่แยกวิเคราะห์เป็นโครงสร้างต้นไม้ซึ่งสามารถค้นหาและวนซ้ำได้ด้วยลูป Python ทั่วไป ^{[ 9 ]}

ตัวอย่างโค้ด

ตัวอย่างด้านล่างใช้ไลบรารีมาตรฐาน Python urllib ^{[ 10 ]}เพื่อโหลด หน้าหลักของ Wikipediaจากนั้นใช้ Beautiful Soup เพื่อแยกวิเคราะห์เอกสารและค้นหาลิงก์ทั้งหมดภายใน

#!/usr/bin/env python3 # การดึงแองเคอร์จากเอกสาร HTML จากbs4 import BeautifulSoup จากurllib.request import urlopenด้วยurlopen ( "https://en.wikipedia.org/wiki/Main_Page" ) เป็นการตอบสนอง: soup = BeautifulSoup ( response , "html.parser" ) for anchor in soup . find_all ( "a" ): print ( anchor . get ( "href" , "/" ))

อีกตัวอย่างหนึ่งคือการใช้ไลบรารี requests ของ Python ^{[ 11 ]}เพื่อรับ div บน URL

นำเข้าคำขอจากbs4 นำเข้าBeautifulSoupurl = " https://wikipedia.org " response = requests.get ( url ) soup = BeautifulSoup ( response.text , " html.parser " ) headings = soup.find_all ( " div " )สำหรับหัวข้อในหัวข้อ: พิมพ์( หัวข้อ. ข้อความ. ตัดออก())

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]