อ่าน 3 นาที
ซุปแสนอร่อย (ตัวแยกวิเคราะห์ HTML)
Beautiful Soup เป็น แพ็กเกจ Python สำหรับการแยกวิเคราะห์ เอกสาร HTML และ XML รวมถึงเอกสารที่มีมาร์กอัปผิดรูปแบบ โดยจะสร้าง แผนผังการแยกวิเคราะห์...
ซุปแสนอร่อย (ตัวแยกวิเคราะห์ HTML)
| ซุปแสนอร่อย | |
|---|---|
| ผู้เขียนต้นฉบับ | ลีโอนาร์ด ริชาร์ดสัน |
| ปล่อย | 2004 |
| เวอร์ชันเสถียร | 4.14.3 [ 1 ] |
| เขียนเป็น | ไพธอน |
| แพลตฟอร์ม | ไพธอน |
| พิมพ์ | ไลบรารีตัวแยกวิเคราะห์ HTML , การดึงข้อมูลจากเว็บ |
| ใบอนุญาต |
|
| เว็บไซต์ | www.crummy.com/software/BeautifulSoup/ |
| ที่เก็บข้อมูล |
|
Beautiful Soupเป็น แพ็กเกจ Pythonสำหรับการแยกวิเคราะห์ เอกสาร HTMLและXMLรวมถึงเอกสารที่มีมาร์กอัปผิดรูปแบบ โดยจะสร้างแผนผังการแยกวิเคราะห์สำหรับเอกสารที่สามารถใช้ในการดึงข้อมูลจาก HTML [ 3 ]ซึ่งมีประโยชน์สำหรับการดึงข้อมูลจากเว็บ[ 2 ] [ 4 ]
ประวัติศาสตร์
Beautiful Soup เริ่มต้นในปี 2004 โดย Leonard Richardson ชื่อนี้มาจากบทกวีBeautiful SoupจากAlice's Adventures in Wonderlandและเป็นการอ้างอิงถึงคำว่า " tag soup " ซึ่งหมายถึงโค้ด HTML ที่มีโครงสร้างไม่ดี[ 5 ] Richardson ยังคงมีส่วนร่วมในโครงการนี้[ 6 ]ซึ่งได้รับการสนับสนุนเพิ่มเติมจากผู้ดูแลโอเพนซอร์สที่ได้รับค่าตอบแทนจากบริษัท Tidelift [ 7 ]
เวอร์ชัน
Beautiful Soup 3 เป็นเวอร์ชันอย่างเป็นทางการของ Beautiful Soup ที่วางจำหน่ายตั้งแต่เดือนพฤษภาคม 2549 ถึงเดือนมีนาคม 2555 ส่วนเวอร์ชันปัจจุบันคือBeautiful Soup 4.x
ในปี 2021 การสนับสนุน Python 2.7 ถูกยกเลิก และเวอร์ชัน 4.9.3 เป็นเวอร์ชันสุดท้ายที่รองรับ Python 2.7 [ 8 ]
การใช้งาน
Beautiful Soup แสดงข้อมูลที่แยกวิเคราะห์เป็นโครงสร้างต้นไม้ซึ่งสามารถค้นหาและวนซ้ำได้ด้วยลูป Python ทั่วไป [ 9 ]
ตัวอย่างโค้ด
ตัวอย่างด้านล่างใช้ไลบรารีมาตรฐาน Python urllib [ 10 ]เพื่อโหลด หน้าหลักของ Wikipediaจากนั้นใช้ Beautiful Soup เพื่อแยกวิเคราะห์เอกสารและค้นหาลิงก์ทั้งหมดภายใน
#!/usr/bin/env python3 # การดึงแองเคอร์จากเอกสาร HTML จากbs4 import BeautifulSoup จากurllib.request import urlopenด้วยurlopen ( "https://en.wikipedia.org/wiki/Main_Page" ) เป็นการตอบสนอง: soup = BeautifulSoup ( response , "html.parser" ) for anchor in soup . find_all ( "a" ): print ( anchor . get ( "href" , "/" ))อีกตัวอย่างหนึ่งคือการใช้ไลบรารี requests ของ Python [ 11 ]เพื่อรับ div บน URL
นำเข้าคำขอจากbs4 นำเข้าBeautifulSoupurl = " https://wikipedia.org " response = requests.get ( url ) soup = BeautifulSoup ( response.text , " html.parser " ) headings = soup.find_all ( " div " )สำหรับหัวข้อในหัวข้อ: พิมพ์( หัวข้อ. ข้อความ. ตัดออก())ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ซุปแสนอร่อย (ตัวแยกวิเคราะห์ HTML)
Beautiful Soup เป็น แพ็กเกจ Python สำหรับการแยกวิเคราะห์ เอกสาร HTML และ XML รวมถึงเอกสารที่มีมาร์กอัปผิดรูปแบบ โดยจะสร้าง แผนผังการแยกวิเคราะห์...
ประวัติศาสตร์
Beautiful Soup เริ่มต้นในปี 2004 โดย Leonard Richardson ชื่อนี้มาจากบทกวี Beautiful Soup จาก Alice's Adventures in Wonderland และเป็นการอ้างอิงถึงคำว่า " tag soup " ซึ่งหมายถึงโค้ด HTML ที่มีโครงสร้างไม่ดี [ 5 ] Richardson ยังคงมีส่วนร่วมในโครงการนี้ [ 6 ]...
เวอร์ชัน
Beautiful Soup 3 เป็นเวอร์ชันอย่างเป็นทางการของ Beautiful Soup ที่วางจำหน่ายตั้งแต่เดือนพฤษภาคม 2549 ถึงเดือนมีนาคม 2555 ส่วนเวอร์ชันปัจจุบันคือBeautiful Soup 4.x
การใช้งาน
Beautiful Soup แสดงข้อมูลที่แยกวิเคราะห์เป็นโครงสร้างต้นไม้ซึ่งสามารถค้นหาและวนซ้ำได้ด้วย ลูป Python ทั่วไป [ 9 ]