Register Register Member Login Member Login Member Login Forgot Password ??
PHP , ASP , ASP.NET, VB.NET, C#, Java , jQuery , Android , iOS , Windows Phone
 

Registered : 109,037

HOME > PHP > PHP Forum > สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)



 

สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)

 



Topic : 091284



โพสกระทู้ ( 18 )
บทความ ( 0 )



สถานะออฟไลน์




สวัสดีทุกคนใน Thaicreate นะครับ พอดีผมมี issue ที่สงสัยและยังไม่ค่อยเข้าใจสักเท่าไร จึงอยากจะรบกวนพี่ๆ น้องๆ ที่ทราบในเรื่องดังต่อไปนี้ รบกวนให้ความกระจ่างผมหน่อยนะคับ ^^
พอดีว่าผมมีความคิดที่อยากจะเขียน script ที่ใช้สำหรับการดึงข้อมูลจาก Web Site ต่างๆ
โดยจากที่คิดไว้ข้างต้นคืออยากจะดึงจาก Pantip,Google,Facebook หรืออื่นๆ ถ้าเป็นไปได้
เพื่อนำข้อมูลเหล่านี้มาจัดเก็บ เพื่อใช้ต่อยอดในการวิเคราะห์ต่างๆ ครับ
ซึ่งในส่วนนี้ผมมีส่วนที่ใช้ในการจะนำข้อมูลไปจัดเก็บและวิเคราะห็แล้วครับ
จะติดก็เป็นในส่วนของการดึงข้อมูลต่างๆ มาจาก Source เพื่อนำไปวิเคราะห์อ่าครับ
ในที่นี้ผมก็เลยลอง search หัวข้อเกี่ยวกับการจัดทำพวก bot,spider ต่างๆ
ก็เลยทำให้ได้ผมกับ content เกี่ยวกับการทำ crawler ซึ่งก็มีหลายๆ ภาษารองรับ
แต่เนื่องจากผมเคยเขียน PHP มาก่อนเลย เลือกที่จะศึกษาการพัฒนา Crawler บน PHP ครับ
ซึ่งผมก็พบกับ PHPCrawl เป็น webcrawler ซึ่งตามเท่าที่ผมได้ศึกษาดู ก็เหมือนเจ้าตัวนี้
จะเป็น Framework ที่ช่วยในการ provide พวก page, link โดยถ้าเราต้องที่จะ extract ข้อมูลออกมา
น่าจะต้องใช้พวก regular expression หรือพวก DOM อะครับ
ซึ่งในส่วนนี้สิ่งที่ผมสงสัยและต้องการข้อมูลเพิ่มเติมก็คือ

- อยากจะทราบเกี่ยวกับ concept ของการทำ bot,spider รวมไปถึงการทำงานของ Crawler และ DOM ด้วยครับ
- ในกรณีที่ผมสร้าง webcrawl เสร็จแล้ว ผมสามารถนำไปใช้กับทุกๆ website ที่ต้องการดึงข้อมูลได้หรือไม่
เช่น ช่วงแรกผมใช้สำหรับดึงข้อมูลจาก pantip ต่อมาก็นำไปใช้เพื่อดึงข้อมูลจาก facebook หรือเว็บอื่นๆ
ที่มีลักษณะเป็น forum
- ในการเขียน webbot เพื่อดึงข้อมูล นั้นมีข้อจำกัดอะไรบ้าง เช่น ในการเขียนสำหรับดึงข้อมูล 1 เว็บ
นั้นดึงได้เพียงแค่ 1 Page, ดึงได้ทั้งไซต์, หรือดึงได้เฉพาะ Page ที่เกีย่วข้องกัน

โดยคร่าวจากที่ผมอ่านๆ มาก็มีคำถามประมาณนี้ครับ ยังไงใครที่ทราบหรือว่ามี document ต่างๆ รบกวนช่วย
Post ให้ผมได้อ่านด้วยนะครับ หรือใครต้องการ share knowledge ก็ Post เข้ามาเลยนะครับ ขอบคุณครับ



Tag : PHP







Move To Hilight (Stock) 
Send To Friend.Bookmark.
Date : 2013-02-22 13:37:58 By : zubduce View : 5184 Reply : 2
 

 

No. 1



โพสกระทู้ ( 342 )
บทความ ( 0 )

สมาชิกที่ใส่เสื้อไทยครีเอท

สถานะออฟไลน์


คาดว่าท่าน จขกท คงจะมีความรู้เกี่ยวกับเรื่องพวกนี้พอสมควรนะครับ
ผมอาจไม่รู้เท่ากับท่าน จขกท เลยด้วยซ้ำ

และผมคงตอบได้เท่าที่ผมรู้นะครับ

รายละเอียดของการตอบ ::
- อยากจะทราบเกี่ยวกับ concept ของการทำ bot,spider รวมไปถึงการทำงานของ Crawler และ DOM ด้วยครับ


DOM ดูจากตรงนี้ จะละเอียดหน่อย ดังนั้นผมขอโยนหน้าที่นี้ให้กับ wikipedia นะครับ
http://en.wikipedia.org/wiki/Document_Object_Model

bot , spider ทั้งหลายแหล่ เป็นชื่อเรียกครับ ส่วน crawler เป็นการทำงานของมัน
หากว่ากันถึงที่มา ก็เพราะว่า การทำงานแบบนี้ มันเหมือนกับการทำงานของแมงมุมนั่นเองครับ [ spider(แมงมุม) crawler(ไต่) ]
ส่วน bot อันนี้ผมก็ไม่รู้เหมือนกัน เดาว่ามันเป็นหุ่นยนต์ละกัน ทำงานตามที่เราสั่งประมาณนี้ครับ

DOM เป็นการอ้างโครงสร้างเอกสาร หากเลือกใช้ crawler ในแบบ DOM นั่นหมายความว่า แบบนี้ครับ

- ตัว spider จะต้องไปดึงเอกสารในรูปแบบ tree (ตามรูปแบบของ DOM) ออกมาก่อน
- spider จะ crawl ตาม node ต่างๆ ของเนื้อหาเอกสารที่ได้มาครับ
- หาก spider พบข้อมูลที่ต้องการ ก็จะทำการเก็บไว้ (เก็บวิธีใด ขึ้นกับเราเลือกให้ตัว spider)
- จบแล้วครับ มีแค่นี้

ดูเหมือนจะง่ายใช่มั้ยครับ
หากเป็นความลึกระดับเดียว มันก็มีเท่านี้จริงๆ
แต่ถ้าเป็นความลึกหลายระดับขึ้นมาหน่อย
spider ก็จะ crawl ไปตามระดับความลึกที่เรากำหนดเช่นกันครับ (จะไต่ไปตามลิงค์)

รายละเอียดของการตอบ ::
- ในกรณีที่ผมสร้าง webcrawl เสร็จแล้ว ผมสามารถนำไปใช้กับทุกๆ website ที่ต้องการดึงข้อมูลได้หรือไม่
เช่น ช่วงแรกผมใช้สำหรับดึงข้อมูลจาก pantip ต่อมาก็นำไปใช้เพื่อดึงข้อมูลจาก facebook หรือเว็บอื่นๆ
ที่มีลักษณะเป็น forum

ตรงนี้จะขึ้นอยู่กับว่า ท่าน จขกท ต้องการจะให้ spider ทำงานยังไงครับ ไม่สามารถที่จะบอกได้ว่า "ได้" หรือ "ไม่ได้"
เช่น (สมมติให้มันเว่อๆหน่อยนะครับ)
หากท่าน จขกท กำหนดให้เก็บ จาก tag <haha>....</haha> ซึ่งใน pantip.com มีข้อมูลตัวนี้
พอจะเอาไปใช้กับเว็บไซต์อื่นที่ไม่มี <haha>...</haha> ก็จบครับ spider วิ่งเหนื่อยเปล่าๆ

ดังนั้นจุดนี้ หากจะเขียนให้ crawler ทำงานได้จริงๆ จึงจำเป็นต้องให้สามารถปรับแต่งเนื้อหาที่เราต้องการได้อยู่ตลอดครับ

รายละเอียดของการตอบ ::
- ในการเขียน webbot เพื่อดึงข้อมูล นั้นมีข้อจำกัดอะไรบ้าง เช่น ในการเขียนสำหรับดึงข้อมูล 1 เว็บ
นั้นดึงได้เพียงแค่ 1 Page, ดึงได้ทั้งไซต์, หรือดึงได้เฉพาะ Page ที่เกีย่วข้องกัน


ข้อจำกัดในทฤษฎี ผมเข้าใจว่า จะไม่มีครับ หากจะมีก็แต่ ข้อจำกัดในทางปฏิบัติเท่านั้น
ความหมายของผม คือ

ใน 1 url ที่ท่าน จขกท ป้อนให้กับ bot หรือ spider นั้น
ตัว spider เองเชื่อฟังเราเสมอครับ ว่าจะให้ทำเท่าไหร่ ใช้งานอย่างทาส ก็ยอมหมดครับ อันนี้ทฤษฎี
แต่ในทางปฏิบัติ จะให้คำนึงถึงหลายตัวครับ เช่น
-หากดึงทั้ง site ต้องดูว่า spider มีเวลาทำงานเพียงพอหรือไม่ เพราะเดี๋ยวจะหลับใน สลบคา site นั้นก็ได้ครับ ทำให้เราได้ข้อมูลไม่ครบ และอาจเสียเวลาเปล่าๆ
-หากเรากำหนดให้ spider ทำงานทุกอย่างที่เข้าเงื่อนไข ก็ต้องดูด้วยครับ ว่าทางไซต์เอง ยินยอมให้ spider เราเข้าถึงข้อมูลหรือไม่
-ฯลฯ
เยอะครับ

แถมให้อีกอย่างครับ
spider กับ DOM เองมีข้อเสียอยู่ใหญ่ๆ คือ จะทำงานเมื่อได้ข้อมูลครบครับ
ดังนั้นระหว่างรอข้อมูล spider ของท่าน จะหลับอย่างมีความสุขเสมอ หากแหล่งที่มานั้น มีขนาดที่ใหญ่มาก ครับ

ผิดพลาดประการใด ขออภัย ณ ที่นี้






แสดงความคิดเห็นโดยอ้างถึง ความคิดเห็นนี้
Date : 2013-02-22 14:38:08 By : triplea
 


 

No. 2



โพสกระทู้ ( 18 )
บทความ ( 0 )



สถานะออฟไลน์


ขอบคุณมากๆ เลยครับ ยังไงผมขอลองศึกษา content ที่คุณได้ให้มาก่อนล่ะกันนะครับ ถ้าติดปัญหาในส่วนใดจะมารบกวนอีกที ^^
แสดงความคิดเห็นโดยอ้างถึง ความคิดเห็นนี้
Date : 2013-02-24 13:32:33 By : zubduce
 

   

ค้นหาข้อมูล


   
 

แสดงความคิดเห็น
Re : สอบถามเกี่ยวกับสร้าง Web Bot ในการดึงข้อมูลจากหน้าเว็ป(Crawler,DOM)
 
 
รายละเอียด
 
ตัวหนา ตัวเอียง ตัวขีดเส้นใต้ ตัวมีขีดกลาง| ตัวเรืองแสง ตัวมีเงา ตัวอักษรวิ่ง| จัดย่อหน้าอิสระ จัดย่อหน้าชิดซ้าย จัดย่อหน้ากึ่งกลาง จัดย่อหน้าชิดขวา| เส้นขวาง| ขนาดตัวอักษร แบบตัวอักษร
ใส่แฟลช ใส่รูป ใส่ไฮเปอร์ลิ้งค์ ใส่อีเมล์ ใส่ลิ้งค์ FTP| ใส่แถวของตาราง ใส่คอลัมน์ตาราง| ตัวยก ตัวห้อย ตัวพิมพ์ดีด| ใส่โค้ด ใส่การอ้างถึงคำพูด| ใส่ลีสต์
smiley for :lol: smiley for :ken: smiley for :D smiley for :) smiley for ;) smiley for :eek: smiley for :geek: smiley for :roll: smiley for :erm: smiley for :cool: smiley for :blank: smiley for :idea: smiley for :ehh: smiley for :aargh: smiley for :evil:
Insert PHP Code
Insert ASP Code
Insert VB.NET Code Insert C#.NET Code Insert JavaScript Code Insert C#.NET Code
Insert Java Code
Insert Android Code
Insert Objective-C Code
Insert XML Code
Insert SQL Code
Insert Code
เพื่อความเรียบร้อยของข้อความ ควรจัดรูปแบบให้พอดีกับขนาดของหน้าจอ เพื่อง่ายต่อการอ่านและสบายตา และตรวจสอบภาษาไทยให้ถูกต้อง

อัพโหลดแทรกรูปภาพ

Notice

เพื่อความปลอดภัยของเว็บบอร์ด ไม่อนุญาติให้แทรก แท็ก [img]....[/img] โดยการอัพโหลดไฟล์รูปจากที่อื่น เช่นเว็บไซต์ ฟรีอัพโหลดต่าง ๆ
อัพโหลดแทรกรูปภาพ ให้ใช้บริการอัพโหลดไฟล์ของไทยครีเอท และตัดรูปภาพให้พอดีกับสกรีน เพื่อความโหลดเร็วและไฟล์ไม่ถูกลบทิ้ง

   
  เพื่อความปลอดภัยและการตรวจสอบ กระทู้ที่แทรกไฟล์อัพโหลดไฟล์จากที่อื่น อาจจะถูกลบทิ้ง
 
โดย
อีเมล์
บวกค่าให้ถูก
<= ตัวเลขฮินดูอารบิก เช่น 123 (หรือล็อกอินเข้าระบบสมาชิกเพื่อไม่ต้องกรอก)







Exchange: นำเข้าสินค้าจากจีน, Taobao, เฟอร์นิเจอร์, ของพรีเมี่ยม, ร่ม, ปากกา, power bank, แฟลชไดร์ฟ, กระบอกน้ำ

Load balance : Server 02
ThaiCreate.Com Logo
© www.ThaiCreate.Com. 2003-2024 All Rights Reserved.
ไทยครีเอทบริการ จัดทำดูแลแก้ไข Web Application ทุกรูปแบบ (PHP, .Net Application, VB.Net, C#)
[Conditions Privacy Statement] ติดต่อโฆษณา 081-987-6107 อัตราราคา คลิกที่นี่