Forgot Password ??

PHP , ASP , ASP.NET, VB.NET, C#, Java , jQuery , Android , iOS , Windows Phone

	Registered : 109,038

HOME > PHP > PHP Forum > สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)

สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)

เริ่มหัวข้อใหม่

ZZZzzz

โพสกระทู้ ( 18 )
บทความ ( 0 )

สวัสดีทุกคนใน Thaicreate นะครับ พอดีผมมี issue ที่สงสัยและยังไม่ค่อยเข้าใจสักเท่าไร จึงอยากจะรบกวนพี่ๆ น้องๆ ที่ทราบในเรื่องดังต่อไปนี้ รบกวนให้ความกระจ่างผมหน่อยนะคับ ^^
พอดีว่าผมมีความคิดที่อยากจะเขียน script ที่ใช้สำหรับการดึงข้อมูลจาก Web Site ต่างๆ
โดยจากที่คิดไว้ข้างต้นคืออยากจะดึงจาก Pantip,Google,Facebook หรืออื่นๆ ถ้าเป็นไปได้
เพื่อนำข้อมูลเหล่านี้มาจัดเก็บ เพื่อใช้ต่อยอดในการวิเคราะห์ต่างๆ ครับ
ซึ่งในส่วนนี้ผมมีส่วนที่ใช้ในการจะนำข้อมูลไปจัดเก็บและวิเคราะห็แล้วครับ
จะติดก็เป็นในส่วนของการดึงข้อมูลต่างๆ มาจาก Source เพื่อนำไปวิเคราะห์อ่าครับ
ในที่นี้ผมก็เลยลอง search หัวข้อเกี่ยวกับการจัดทำพวก bot,spider ต่างๆ
ก็เลยทำให้ได้ผมกับ content เกี่ยวกับการทำ crawler ซึ่งก็มีหลายๆ ภาษารองรับ
แต่เนื่องจากผมเคยเขียน PHP มาก่อนเลย เลือกที่จะศึกษาการพัฒนา Crawler บน PHP ครับ
ซึ่งผมก็พบกับ PHPCrawl เป็น webcrawler ซึ่งตามเท่าที่ผมได้ศึกษาดู ก็เหมือนเจ้าตัวนี้
จะเป็น Framework ที่ช่วยในการ provide พวก page, link โดยถ้าเราต้องที่จะ extract ข้อมูลออกมา
น่าจะต้องใช้พวก regular expression หรือพวก DOM อะครับ
ซึ่งในส่วนนี้สิ่งที่ผมสงสัยและต้องการข้อมูลเพิ่มเติมก็คือ

- อยากจะทราบเกี่ยวกับ concept ของการทำ bot,spider รวมไปถึงการทำงานของ Crawler และ DOM ด้วยครับ
- ในกรณีที่ผมสร้าง webcrawl เสร็จแล้ว ผมสามารถนำไปใช้กับทุกๆ website ที่ต้องการดึงข้อมูลได้หรือไม่
เช่น ช่วงแรกผมใช้สำหรับดึงข้อมูลจาก pantip ต่อมาก็นำไปใช้เพื่อดึงข้อมูลจาก facebook หรือเว็บอื่นๆ
ที่มีลักษณะเป็น forum
- ในการเขียน webbot เพื่อดึงข้อมูล นั้นมีข้อจำกัดอะไรบ้าง เช่น ในการเขียนสำหรับดึงข้อมูล 1 เว็บ
นั้นดึงได้เพียงแค่ 1 Page, ดึงได้ทั้งไซต์, หรือดึงได้เฉพาะ Page ที่เกีย่วข้องกัน

โดยคร่าวจากที่ผมอ่านๆ มาก็มีคำถามประมาณนี้ครับ ยังไงใครที่ทราบหรือว่ามี document ต่างๆ รบกวนช่วย
Post ให้ผมได้อ่านด้วยนะครับ หรือใครต้องการ share knowledge ก็ Post เข้ามาเลยนะครับ ขอบคุณครับ

Tag : PHP

Date : 2013-02-22 13:37:58

By : zubduce

View : 5344

Reply : 2

No. 1

TripleA

โพสกระทู้ ( 342 )
บทความ ( 0 )

คาดว่าท่าน จขกท คงจะมีความรู้เกี่ยวกับเรื่องพวกนี้พอสมควรนะครับ
ผมอาจไม่รู้เท่ากับท่าน จขกท เลยด้วยซ้ำ

และผมคงตอบได้เท่าที่ผมรู้นะครับ

รายละเอียดของการตอบ ::

- อยากจะทราบเกี่ยวกับ concept ของการทำ bot,spider รวมไปถึงการทำงานของ Crawler และ DOM ด้วยครับ

DOM ดูจากตรงนี้ จะละเอียดหน่อย ดังนั้นผมขอโยนหน้าที่นี้ให้กับ wikipedia นะครับ
http://en.wikipedia.org/wiki/Document_Object_Model

bot , spider ทั้งหลายแหล่ เป็นชื่อเรียกครับ ส่วน crawler เป็นการทำงานของมัน
หากว่ากันถึงที่มา ก็เพราะว่า การทำงานแบบนี้ มันเหมือนกับการทำงานของแมงมุมนั่นเองครับ [ spider(แมงมุม) crawler(ไต่) ]
ส่วน bot อันนี้ผมก็ไม่รู้เหมือนกัน เดาว่ามันเป็นหุ่นยนต์ละกัน ทำงานตามที่เราสั่งประมาณนี้ครับ

DOM เป็นการอ้างโครงสร้างเอกสาร หากเลือกใช้ crawler ในแบบ DOM นั่นหมายความว่า แบบนี้ครับ

- ตัว spider จะต้องไปดึงเอกสารในรูปแบบ tree (ตามรูปแบบของ DOM) ออกมาก่อน
- spider จะ crawl ตาม node ต่างๆ ของเนื้อหาเอกสารที่ได้มาครับ
- หาก spider พบข้อมูลที่ต้องการ ก็จะทำการเก็บไว้ (เก็บวิธีใด ขึ้นกับเราเลือกให้ตัว spider)
- จบแล้วครับ มีแค่นี้

ดูเหมือนจะง่ายใช่มั้ยครับ
หากเป็นความลึกระดับเดียว มันก็มีเท่านี้จริงๆ
แต่ถ้าเป็นความลึกหลายระดับขึ้นมาหน่อย
spider ก็จะ crawl ไปตามระดับความลึกที่เรากำหนดเช่นกันครับ (จะไต่ไปตามลิงค์)

รายละเอียดของการตอบ ::

- ในกรณีที่ผมสร้าง webcrawl เสร็จแล้ว ผมสามารถนำไปใช้กับทุกๆ website ที่ต้องการดึงข้อมูลได้หรือไม่
เช่น ช่วงแรกผมใช้สำหรับดึงข้อมูลจาก pantip ต่อมาก็นำไปใช้เพื่อดึงข้อมูลจาก facebook หรือเว็บอื่นๆ
ที่มีลักษณะเป็น forum

ตรงนี้จะขึ้นอยู่กับว่า ท่าน จขกท ต้องการจะให้ spider ทำงานยังไงครับ ไม่สามารถที่จะบอกได้ว่า "ได้" หรือ "ไม่ได้"
เช่น (สมมติให้มันเว่อๆหน่อยนะครับ)
หากท่าน จขกท กำหนดให้เก็บ จาก tag <haha>....</haha> ซึ่งใน pantip.com มีข้อมูลตัวนี้
พอจะเอาไปใช้กับเว็บไซต์อื่นที่ไม่มี <haha>...</haha> ก็จบครับ spider วิ่งเหนื่อยเปล่าๆ

ดังนั้นจุดนี้ หากจะเขียนให้ crawler ทำงานได้จริงๆ จึงจำเป็นต้องให้สามารถปรับแต่งเนื้อหาที่เราต้องการได้อยู่ตลอดครับ

รายละเอียดของการตอบ ::

- ในการเขียน webbot เพื่อดึงข้อมูล นั้นมีข้อจำกัดอะไรบ้าง เช่น ในการเขียนสำหรับดึงข้อมูล 1 เว็บ
นั้นดึงได้เพียงแค่ 1 Page, ดึงได้ทั้งไซต์, หรือดึงได้เฉพาะ Page ที่เกีย่วข้องกัน

ข้อจำกัดในทฤษฎี ผมเข้าใจว่า จะไม่มีครับ หากจะมีก็แต่ ข้อจำกัดในทางปฏิบัติเท่านั้น
ความหมายของผม คือ

ใน 1 url ที่ท่าน จขกท ป้อนให้กับ bot หรือ spider นั้น
ตัว spider เองเชื่อฟังเราเสมอครับ ว่าจะให้ทำเท่าไหร่ ใช้งานอย่างทาส ก็ยอมหมดครับ อันนี้ทฤษฎี
แต่ในทางปฏิบัติ จะให้คำนึงถึงหลายตัวครับ เช่น
-หากดึงทั้ง site ต้องดูว่า spider มีเวลาทำงานเพียงพอหรือไม่ เพราะเดี๋ยวจะหลับใน สลบคา site นั้นก็ได้ครับ ทำให้เราได้ข้อมูลไม่ครบ และอาจเสียเวลาเปล่าๆ
-หากเรากำหนดให้ spider ทำงานทุกอย่างที่เข้าเงื่อนไข ก็ต้องดูด้วยครับ ว่าทางไซต์เอง ยินยอมให้ spider เราเข้าถึงข้อมูลหรือไม่
-ฯลฯ
เยอะครับ

แถมให้อีกอย่างครับ
spider กับ DOM เองมีข้อเสียอยู่ใหญ่ๆ คือ จะทำงานเมื่อได้ข้อมูลครบครับ
ดังนั้นระหว่างรอข้อมูล spider ของท่าน จะหลับอย่างมีความสุขเสมอ หากแหล่งที่มานั้น มีขนาดที่ใหญ่มาก ครับ

ผิดพลาดประการใด ขออภัย ณ ที่นี้

Date : 2013-02-22 14:38:08

By : triplea

No. 2

ZZZzzz

โพสกระทู้ ( 18 )
บทความ ( 0 )

ขอบคุณมากๆ เลยครับ ยังไงผมขอลองศึกษา content ที่คุณได้ให้มาก่อนล่ะกันนะครับ ถ้าติดปัญหาในส่วนใดจะมารบกวนอีกที ^^

Date : 2013-02-24 13:32:33

By : zubduce

ค้นหาข้อมูล

แสดงความคิดเห็น

Re : สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)

รายละเอียด

เพื่อความเรียบร้อยของข้อความ ควรจัดรูปแบบให้พอดีกับขนาดของหน้าจอ เพื่อง่ายต่อการอ่านและสบายตา และตรวจสอบภาษาไทยให้ถูกต้อง

อัพโหลดแทรกรูปภาพ

Notice

เพื่อความปลอดภัยของเว็บบอร์ด ไม่อนุญาติให้แทรก แท็ก [img]....[/img] โดยการอัพโหลดไฟล์รูปจากที่อื่น เช่นเว็บไซต์ ฟรีอัพโหลดต่าง ๆ
อัพโหลดแทรกรูปภาพ ให้ใช้บริการอัพโหลดไฟล์ของไทยครีเอท และตัดรูปภาพให้พอดีกับสกรีน เพื่อความโหลดเร็วและไฟล์ไม่ถูกลบทิ้ง

เพื่อความปลอดภัยและการตรวจสอบ กระทู้ที่แทรกไฟล์อัพโหลดไฟล์จากที่อื่น อาจจะถูกลบทิ้ง

โดย

อีเมล์

บวกค่าให้ถูก

<= ตัวเลขฮินดูอารบิก เช่น 123 (หรือล็อกอินเข้าระบบสมาชิกเพื่อไม่ต้องกรอก)

Registered : 109,038

document.write("<font color=996600>[PHP]</font>"); สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)

No. 1

No. 2

ค้นหาข้อมูล

อัพโหลดแทรกรูปภาพ

Notice

สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)