Cloudflare ที่ช่วยคุณกั้นแมงมุมเว็บ ปล่อยตัวใหม่ "API ครอลเว็บทั้งเว็บไซต์แบบเดียวโลก" รองรับ RAG การอัปเดตแบบเพิ่มเติม และการฝึกสอนโมเดลได้อย่างสมบูรณ์แบบ

動區BlockTempo

Cloudflare เมื่อวันที่ 10 มีนาคม ได้เปิดตัวจุดสิ้นสุด /crawl ใหม่สำหรับบริการ Browser Rendering ของตน (ในช่วง Open Beta ขณะนี้) ฟีเจอร์ใหม่นี้อนุญาตให้นักพัฒนาสามารถเก็บข้อมูลเว็บไซต์ทั้งเว็บไซต์ด้วยการเรียก API เพียงครั้งเดียว และสามารถแปลงเนื้อหาเป็น HTML, Markdown หรือ JSON ที่มีโครงสร้างอัตโนมัติ ซึ่งเป็นเครื่องมือที่ทรงพลังและเป็นไปตามกฎระเบียบสำหรับการสร้างชุดข้อมูลฝึก AI และกระบวนการ RAG (Retrieval-Augmented Generation)
(เรื่องราวก่อนหน้า: ความล้มเหลวครั้งใหญ่ของ Cloudflare ทำให้เครือข่ายทั่วโลกหยุดชะงัก “โครงสร้างแบบกระจายศูนย์” คืออนาคตของโครงสร้างพื้นฐาน?)
(ข้อมูลเสริม: หลังจาก Cloudflare ล่มเป็นเวลา 24 ชั่วโมง ทำไมเครือข่ายถึง “ล่มทันที”? ความเสี่ยงของการรวมศูนย์ส่งผลต่อ Web3 และ RWA ในอนาคต)

สารบัญบทความ

สลับ

  • การดำเนินงานแบบอะซิงโครนัส รองรับ Markdown และ JSON ที่มีโครงสร้าง
  • เน้น “บอทน่ารัก” สำหรับการเก็บข้อมูลอย่างถูกต้องตามกฎหมายและมีมาตรการป้องกัน
  • การเก็บข้อมูลแบบเพิ่มขึ้นเพื่อลดต้นทุน พร้อมทดลองใช้งานฟรี

ด้วยการเติบโตอย่างรวดเร็วของ AI แบบสร้างสรรค์และเทคโนโลยี RAG (Retrieval-Augmented Generation) การดึงข้อมูลจากเว็บไซต์อย่างมีประสิทธิภาพและเป็นไปตามกฎระเบียบ จึงกลายเป็นความท้าทายอันดับต้น ๆ สำหรับนักพัฒนา ในเรื่องนี้ ยักษ์ใหญ่ด้านโครงสร้างพื้นฐานเครือข่าย Cloudflare ได้ประกาศอย่างเป็นทางการเมื่อวันที่ 10 มีนาคม ว่าได้เปิดตัวฟีเจอร์ใหม่ระดับฆ่าตัวตายสำหรับบริการ Browser Rendering ของตน: จุดสิ้นสุด /crawl API ใหม่

ฟีเจอร์นี้อยู่ในช่วงทดสอบแบบเปิด (Open Beta) ซึ่งเน้นให้ผู้พัฒนาสามารถ “เก็บข้อมูลเว็บไซต์ทั้งเว็บไซต์ด้วยการเรียก API ครั้งเดียว”

การดำเนินงานแบบอะซิงโครนัส รองรับ Markdown และ JSON ที่มีโครงสร้าง

จากประกาศของ Cloudflare API ตัวใหม่นี้ใช้โหมดการทำงานแบบอะซิงโครนัส (Asynchronous) นักพัฒนาสามารถส่ง URL เริ่มต้น ระบบจะคืนรหัสงาน (Job ID) และทำงานเบื้องหลังโดยใช้เบราว์เซอร์ไร้หัว (Headless Browser) เพื่อค้นหาและเรนเดอร์หน้าเว็บโดยอัตโนมัติ นักพัฒนาสามารถตรวจสอบความคืบหน้าและผลลัพธ์ของการเก็บข้อมูลได้ตลอดเวลาโดยใช้รหัสงานนั้น

เพื่อให้สอดคล้องกับกระบวนการพัฒนา AI ในปัจจุบัน API นี้จึงรองรับหลายรูปแบบของผลลัพธ์ นอกจาก HTML แบบดั้งเดิมแล้ว ยังสามารถส่งออกเป็น Markdown ซึ่งเป็นที่นิยมในกลุ่ม LLM (Large Language Models) และ JSON ที่มีโครงสร้างซึ่งขับเคลื่อนโดย Workers AI ซึ่งช่วยลดเวลาที่นักพัฒนาต้องใช้ในการทำความสะอาดข้อมูลและแปลงรูปแบบอย่างมาก

เน้น “บอทน่ารัก” สำหรับการเก็บข้อมูลอย่างถูกต้องตามกฎหมายและมีมาตรการป้องกัน

ต่างจากบอทเก็บข้อมูลที่พยายามเลี่ยงการป้องกันในตลาดหลายตัว จุดสิ้นสุด /crawl ที่ Cloudflare เปิดตัวนี้เน้นความ “เป็นไปตามกฎหมายและโปร่งใส” อย่างชัดเจน ทางบริษัทเน้นว่า จุดสิ้นสุดนี้เป็นตัวแทน (Signed-agent) ที่ได้รับการลงนามล่วงหน้า ซึ่งจะปฏิบัติตามคำสั่งในไฟล์ robots.txt ของเว็บไซต์เป้าหมายอย่างเคร่งครัด รวมถึงการจำกัดความถี่ในการเก็บข้อมูลตามที่กำหนดไว้ และเคารพแนวทาง “AI Crawl Control (การควบคุมการเก็บข้อมูลด้วย AI)” ของ Cloudflare เอง

นอกจากนี้ Cloudflare ยังระบุอย่างชัดเจนว่า เครื่องมือนี้ “จะแสดงตัวเองว่าเป็นบอท” และ ไม่สามารถข้ามระบบตรวจจับบอท ของ Cloudflare หรือ CAPTCHA ได้ การออกแบบเช่นนี้ช่วยให้แน่ใจว่าการเก็บข้อมูลด้วยบอทจะไม่ละเมิดความตั้งใจของเจ้าของเว็บไซต์หรือเซิร์ฟเวอร์ของพวกเขา

การเก็บข้อมูลแบบเพิ่มขึ้นเพื่อลดต้นทุน พร้อมทดลองใช้งานฟรี

เพื่อเพิ่มประสิทธิภาพและลดต้นทุน API นี้ยังมีฟีเจอร์การควบคุมขั้นสูงหลายอย่าง:

  • การเก็บข้อมูลแบบเพิ่มขึ้น (Incremental crawling): รองรับพารามิเตอร์ modifiedSince และ maxAge ซึ่งช่วยให้สามารถข้ามหน้าเว็บที่ไม่ได้เปลี่ยนแปลงหรือเพิ่งเก็บข้อมูลมาไม่นาน ลดภาระการเก็บข้อมูลซ้ำซ้อน
  • การควบคุมขอบเขตอย่างละเอียด: นักพัฒนาสามารถกำหนดความลึกของการเก็บข้อมูล จำนวนหน้าสูงสุด และใช้ตัวอักษรแทน (Wildcard) เพื่อรวม หรือ ยกเว้น URL เฉพาะเจาะจง
  • โหมดสแตติก (Static mode): สำหรับเว็บไซต์ที่ไม่ต้องการเรนเดอร์ JavaScript สามารถตั้งค่า render: false เพื่อข้ามการเปิดเบราว์เซอร์ไร้หัว ทำให้การเก็บข้อมูลรวดเร็วขึ้นมาก

ปัจจุบัน ฟีเจอร์การเก็บข้อมูลอันทรงพลังนี้เปิดให้ใช้งานเต็มรูปแบบสำหรับผู้ใช้ Cloudflare Workers ทั้งในเวอร์ชันฟรีและแบบเสียเงิน ซึ่งเหมาะสำหรับทีมพัฒนาที่ต้องการตรวจสอบเนื้อหาเว็บไซต์เป็นประจำ รวบรวมข้อมูลสำหรับการวิจัย หรือสร้างฐานความรู้ AI ระดับองค์กร ซึ่งเป็นการอัปเกรดโครงสร้างพื้นฐานที่น่าดึงดูดใจอย่างยิ่ง

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น