Web Scraping , අනුන්ගේ දේවල් සොරාගැනිම.

2
  • Feb 15, 2010
  • C0de BlUe
  • Labels: ,

  • Share/Bookmark මට නම් Web scraping අලුත්. මොකක්ද මේ web scraping කියන්නේ ???? කෙට්යෙන්ම කිවොත් web scarping කියන්නේ අමු අමුවේ තොරතුරු හොරකම් කිරිල්ලක් කිවත් වැරදි නැ ,  මොකද මේ ක්‍රමය ගොඩක්ම භාවිතා කරන්නේ වෙනත් වෙබ් පි‍ටුවක ඇති තොරතුරු තමන්ට ඕනැ විදිහට query කරලා ගන්න (මම වැරදි නම් මාව නිවැරදි කරන්න හොදේ ).



    වැඩි විස්තර දැනගැනිමට මෙතන කොටන්න .

    මට මේ web scraping සෙට් උනේ , පොඩි වැඩකට මම premiumbeat player (http://www.premiumbeat.com/flash_resources/free_flash_music_player/#mp3Players) එක මගේ site වල වැඩකට ගත්තා. පස්සේ  player එකේ XML File එක code  කරන්න ගත්තා , මෙන්න ඊටපස්සේ තමා මහා තොවිලය පටන්ගත්තේ . වැඩේ කියන්නේ XML File එක ලියන්න ගත්තාම දැක්කේ Files 2000+ code කරන්න තියනවානේ කියලා (පුදපු ගමන් කාපු යකා කියපි ), මට ඒක දැක්ක ගමන් (File තොගය) තරු පෙනුනා , ඇයි දෙයියනේ මට files 2000+ code කරන්න ගියොත් XML එකට මගේ පන ගිහිල්ලා ඉවරයි. මුලින්ම අවුල ටෙක්කතා වලත් දැම්මා , සාර්ථක පිළිතුරක් ලැබුනේ නෑ (අප්පේ මෙහෙම දැම්මා කියලා මට කාලිංග අයියාගෙන් බැනුම් අහන්න වෙයිද මං දන්නේ නෑ  :P ) . පස්සේ වැඩේ අතහැරලා දාන්න ඉන්නකොට දවසක් kuppiya.com හි කුසල් අයියා මුනුපොතෙන් set උනා (හොද වෙලාවට එයා හම්බ උනේ එදා ). මිනිහට මම අවුල කිව්වා , මිනිහා කියපි නැතා PHP  පාවිච්චි කරලා web scraping  කරන්න කියලා (ඒ වේලාවේ නම් අයියා දෙයියෙක් නෙවෙයි දේවාලයක් ).

    පස්සේ පොඩ්ඩක් ජංජාලයේ රවුමක් දැම්මා web scraping script  එකක් හොයන්න  (ආ , අමතක උනානේ web scaping ගැන පොඩි සිංහල video tutorial එකක් kuppiya.com හි තියනවා කියුවා : මෙතැන කොටන්න සිංහල video tutorial එක ගන්න ) .පස්සේ හිතුනා මොකටද script  හොයන්නනේ  web scarping tool එකක් කෙලින්ම හෙව්වා නම් ලෙහෙසි නේ කියලා (ඒ වෙලාවේ තමා මට ටිකිරි මොලේ ආවේ ) .

    පස්සේ මට එලකිරි tool එකක් නම් හම්බ උනා ; නම තමා "Web Content Extractor" . මරු බඩුව . අවුලකට තියන්නේ trial  එක නිසා Links 150 කට විතර තමා Web scraping එක generate වෙන්නේ . තව මේකේ output එක Microsoft Access database, Microsoft Excel (CSV), Text (TXT), HTML, XML, SQL script, MySQL script files සහ ඕනේම ODBC data source එකකට ගන්න පුලුවන් .

    පහත පිංතුර ටික බලන්නකෝ .......





    Web Content Extractor ගන්න මෙතැන කොටන්න....
    වැඩි විස්තර සදහා මෙතැන කොටන්න ....

    වැඩි විස්තර දන්නවා නම් පහත comment එකක් දාලා යන්නකෝ , දැනුම බෙදාගැනිම කාටත් හොදයි නේ ........

    2 comments:

    1. CD Athuraliya said...
    2. my knowledge is poor about these things...but your stuff sounds good bro! :) :)

    3. ashan said...
    4. අවුලක් නෑ , මට උබට වගේ සාහිත්‍යය බෑ , ටික ටික තමා ඉගෙන ගන්නේ !!!! , ඒ වගේ තමා උබත් ටික ටික ඉගෙන ගනියි ...... !!!! ස්තුතියි කොමන්ට් එකට !!!! :)

    Post a Comment

    write your comments here!

    Related Posts with Thumbnails