C# Advanced {Подготовка за изпита в Judge} - [Problem03] Extract Hyperlinks
Колеги някой може ли да даде едно рамо тук. Нещо не мога да докарам регекс-а така че да хване всичко което ми трябва на третия нулев тест.
Колеги някой може ли да даде едно рамо тук. Нещо не мога да докарам регекс-а така че да хване всичко което ми трябва на третия нулев тест.
До колкото разбрах от задачата трябва да изпринтиш всичко след "href=" до char или space,използвай Anchors по скоро за да определиш кога започва и кога свършва .
Колега, ако все още те интересува :), аз успях да получа 100/100 с доста мъки, гледане на тестовете и ето този regex:
(?:<a)(?:[\s\n_0-9a-zA-Z=""()]*?.*?)(?:href([\s\n]*)?=(?:['""\s\n]*)?)([a-zA-Z:#\/._\-0-9!?=^+]*(\([""'a-zA-Z\s.()0-9]*\))?)(?:[\s\na-zA-Z=""()0-9]*.*?)?(?:\>)
Също така, ползвам StringBuilder, за да направя целия input в един string. Това е цялото решение: цък.
Честно казано, ако на изпита се падне нещо подобно, с толкова много вариации на regex-a, не виждам как може да се изкара пълния набор точки, без да се гледа input-a. Но пък, може и моята логика да е грешна :).
П.С. Само да добавя, че има един ugly-fix, който проверява за string "fake" във върнатия резултат. Без него, на последния тест, хваща href='fake', но не успях да нагодя regex-a да го скипва :).
Евала колега. Тоя регекс бая си се занимавал докато го нагодиш. Ако се падне такава задача на изпита лично аз въобще няма да я мъча оставям я за накрая колкото време ми остане ще я пробвам, колкот да мина няколко от тестовете ама 100/100 никога няма да мога да изкарам.
Брат, не знам как си сътворил този регекс, но ще остане вечен! Има отредено място в историята на СофтУни. За много студенти, той ще направи разликата между 83 и 100 точки на домашното :D :D
mgulubov Поздравления за решението и от мен. Имам само един лек коментар към регекса само. Комбинацията \s\n е безсмислена, защото \s (whitespace) включва в себе си и \n. Получават се 100% и ако навсякъде смениш \s\n само с \s. Това, което ми харесва най-много е, че не те е домързяло да сложиш ".*", както бихме направили повечето, а си изборил старателно възможните символи, избягваки разни подводни камъни. Решението ти ми беше полезно!
Ето и от мен едно решение - http://pastebin.com/sNsXCc09
Да ,може да се ползва стрингбилдър, някои от проверките ми сигурно са кофти за производителността, но пък поне за мен регекса е ок като сложност пък и джъджа не се оплаква. Почнах я чудейки се дали ще се справя, пък задачата дори ми се стори не прекалено трудна и се реши за под час.
Тествайки в Regex101 пуснах single line режима, за да не се занимавам с новите редове. Когато я подкарах във VS забравих да активирам тази опция, пък то взе че стана и без нея - ми още по-добре :D
Колега прегледах ти регекса, преди време като беше тази задача в домашното, ми беше много интересно и на мене дали съществува регекс който да връща само търсените резултати, но истината е че такъв регекс няма. Не го казвам за да те дискредитирам, самият факт че си намерил такъв къс регекс който да изкара 100 на judge-a си е голямо постижение, но регекса ти има голяма слабост, а именно ръчно изработен е към специфичен случай. Ето тази част:
(?:>|class|\1)
в случаите в които търсеният резултат не е обграден от кавички ти разчиташ той да е последван от "class" или ">". Факта е че е имало само 1 такъв тест в judge-a и ти си го покрил, но ако ти се падне подобна задача на изпита това може да те подведе, ако има нещо друго след резултата което ти не знаеш какво е, защото този тест може да не е нулев ще гърми. По добре се презастраховай и пиши регекси които да покриват всички възможности.
Спокойно, никой няма да бъде дискредитиран :)
Напълно съм наясно, че е леко хакната тази част - даже доста очаквах да гръмне в джъджа и после щях да оправям именно class, но при положение че мина не мисля да се занимавам. И все пак според мен няма да е особено трудно да се отстрани тази слабост.
Аз си написах един регекс, който ми хваща всичко което трябва да хвана по условието на теста, но хващам и още три неща, които не знам как да избегна.
Колега ,нещо не ми е ясно, защо ти е да ги хващаш тези " ' ".Аз в задачата използвах това (?<tag><a href=)(?<link>\w+:\/\/\w+\.\w+)>(?<text>\w+)(<\/a>) .С този regex хващаш различните части на <а> тага и след това заменяш само тези,които искаш ,като използваш match.Group[x]
Нещо аз не хващам... тия регекси са отвратителни... може ли да ти видя решението как хващаш всички хиперлинкове с този регекс ?