Эксперт Semalt тлумачыць, як саскрыць сайт з прыгожым супам

Ёсць шмат дадзеных, якія звычайна ёсць на другім баку HTML. Для кампутарнай машыны вэб-старонка - гэта проста сумесь сімвалаў, тэкставых знакаў і прабелаў. Фактычная рэч, якую мы хочам атрымаць на вэб-старонцы, - гэта толькі змесціва, якое чытаецца нам. Кампутар вызначае гэтыя элементы як тэгі HTML. Фактар, які адрознівае неапрацаваны код ад дадзеных, якія мы бачым, - гэта праграмнае забеспячэнне, у гэтым выпадку, нашы браўзэры. Іншыя сайты, такія як скрабкі, могуць выкарыстоўваць гэтую канцэпцыю, каб саскрабаць змесціва сайта і захаваць яго для наступнага выкарыстання.

Калі вы зразумееце, калі вы адкрыеце дакумент HTML альбо зыходны файл для пэўнай вэб-старонкі, можна будзе знайсці змесціва, прысвечанае пэўнаму вэб-сайту. Гэта інфармацыя будзе на плоскім пейзажы разам з вялікай колькасцю кода. Увесь працэс уключае ў сябе справу са зместам неструктуравана. Аднак ёсць магчымасць арганізаваць гэтую інфармацыю структуравана і здабыць карысныя часткі з усяго кода.

У большасці выпадкаў скрабкі не выконваюць сваю дзейнасць для дасягнення радка HTML. Звычайна існуе канчатковая выгада, якую спрабуюць дасягнуць усе. Напрыклад, людзям, якія ажыццяўляюць нейкую інтэрнэт-маркетынгавую дзейнасць, можа спатрэбіцца ўключыць унікальныя радкі, такія як command-f, каб атрымаць інфармацыю з вэб-старонкі. Каб выканаць гэтую задачу на некалькіх старонках, вам можа спатрэбіцца дапамога, а не толькі чалавечыя магчымасці. Скрабкі на сайтах - гэта боты, якія могуць зачасаць на некалькі мільёнаў старонак за лічаныя гадзіны. Увесь працэс патрабуе простага праграмна-арыентаванага падыходу. З некаторымі мовамі праграмавання, такімі як Python, карыстальнікі могуць скадыраваць некаторыя сканеры, якія могуць саскрэбіць дадзеныя сайта і скінуць яго ў пэўнае месца.

Рыхтоўка можа быць рызыкоўнай працэдурай для некаторых сайтаў. Існуе шмат праблем, якія круцяцца вакол законнасці выскрабання. Перш за ўсё, некаторыя людзі лічаць свае дадзеныя прыватнымі і канфідэнцыйнымі. Гэта з'ява азначае, што праблемы аўтарскага права, а таксама ўцечкі выключнага зместу могуць узнікнуць у выпадку злому. У некаторых выпадках людзі загружаюць цэлы сайт для выкарыстання ў аўтаномным рэжыме. Напрыклад, у нядаўнім мінулым быў сайт Craigslist для сайта пад назвай 3Taps. Гэты сайт вылупляе змесціва сайта і публікуе спісы жылля ў класіфікаваных раздзелах. Пазней яны разлічыліся з дапамогай 3Taps, заплаціўшы $ 1 000 000 за свае былыя сайты.

BS - гэта набор інструментаў (мова Python), такіх як модуль або пакет. Вы можаце выкарыстоўваць Beautiful Soup, каб саскрэбіць сайт са старонак дадзеных у Інтэрнэце. Можна саскрэбіць сайт і атрымаць дадзеныя ў структураваным выглядзе, які адпавядае вашаму выснову. Вы можаце разабраць URL, а потым усталяваць канкрэтны ўзор, уключаючы наш фармат экспарту. У BS вы можаце экспартаваць у розных фарматах, такіх як XML. Для пачатку вам трэба ўсталяваць прыстойную версію BS і пачаць з некалькіх асноў Python. Тут неабходныя веды па праграмаванні.