Nawiązując do naszej współpracy z Birmingham City University, byliśmy zaszczyceni możliwością sponsorowania pierwszej edycji uniwersyteckich rozgrywek zwanych Hackathon, BCUHack.
Cały konkurs zaskoczył nas ilością talentów, które wzięły udział, szczególnie że była to dopiero pierwsza edycja tego konkursu. Dla osób, które wykazały się najbardziej kreatywnym użyciem naszych danych API, mieliśmy 4 zestawy Raspberry Pi ‘Starter Kits’ .
Majestic znalazł swój własny sposób na wykorzystywanie danych w tego rodzaju konkursach oraz programach edukacyjnych. Na przykład Codeacation wykorzystuje nasze API oraz PHP Connector, by oceniać strony na podstawie naszych wskaźników (Majestic Flow Metrics) oraz by uczyć młodych ludzi programowania.
Inne zastosowanie naszego API zostało wykorzystane przez drużynę JILL BCUHack; która połączyła nasze dane z YouTube tak, aby wygenerować informacje na temat poszczególnych zainteresowań, a następnie połączyć je z podobnymi profilami na Twitterze.
Choć grupa UnManned napotkała się na trudności już na samym początku zadania, to jednak otrzymali oni naprawdę silną stronę, która przedstawiała wyniki naszych wskaźników dla innych domen. Education Hub była drużyną, która użyła Majestic API w dość innowacyjny sposób podczas meczu piłkarskiego.
Dwa inne sposoby na użycie naszych danych były tak samo różnorodne i interesujące, więc mieliśmy problem z podjęciem decyzji, kto powinien wygrać.
Drużyna iPiWatchPhone stworzyła API, które użyło obecnej lokalizacji, by zaprezentować blisko położone miejsca z Google Places API. Dzięki temu mogli oni analizować biznesy używając danych Topical Trust Flow, sprawdzając ich pozycję na rynku. Dodatkowo grupa stworzyła aplikację na telefon używając Raspberry Pi podłączonego do LED oraz iWatch; tak aby wszystkie narzędzia mogły wyświetlać ich informacje.
Pewnie teraz rozumiesz, dlaczego mieliśmy problem z podjęciem decyzji, kto powinien wygrać. Zdecydowaliśmy jednak, że zespół Team Sapphire był najlepszy. Zbudowali oni coś na podobieństwo aplikacji Tinder by odkryć które strony z listy Majestic Million (pierwsze 500 wyników), mogły by ci się…podobać! Zostało to nazwane crawlr. Studenci użyli możliwości przeciągnięcia wyniku na prawo lub lewo, by ustabilizować jakimi profilami Topical Trust Flow użytkownicy byliby najbardziej zainteresowani. Stworzyli oni rozwiązanie z wieloma zastosowaniami, które zawierało nawet skrypt Python by zbierać uaktualnione zrzuty stron, pobierane co 10 minut.
A oto jak Max z drużyny Team Sapphire skomentował swoją aplikację:
“Kiedy użytkownik przeciągnie wynik na prawo, API Majestic używa najpierw komendy GetRefDomains, a my dodajemy 5 innych domen, których nie ma jeszcze w bazie danych do kolumny obok. Następnie są one skanowane by pozyskać najważniejsze informacje oraz by pobrać zrzut strony. Jeśli Majestic API posiada jakieś nieaktualne informacje o stronie (na przykład brak tytułu strony), używamy Pythona Urllib2 by zaktualizować bazę danych.”.
A oto jak wygląda crawlr w akcji:
Zapytaliśmy naszą zwycięską drużynę w składzie Tom Bofry, John Hayes oraz Max Maton (od lewej) z Birmingham City University; kilka pytań:
Jak wpadliście na pomysł crawlr’a?
W sumie to sam nie jestem pewien jak ten pomysł powstał. Z tego co pamiętam, to próbowaliśmy mieć tak zwaną ‘burzę mózgów’ z różnymi pomysłami, aż w końcu podsunąłem pomysł na tę aplikację, a John oraz Tom wyrazili zgodę. Pomyślałem, że na codzień używam tylko 5 stron (Reddit, Ars Technica, Y Combinator, Facebook oraz BBC News) dlatego uznałem, że dobrze by było znaleźć więcej stron, którymi mógłbym być potencjalnie także zainteresowany.
Wszyscy w Majestic uznaliśmy, że wynik końcowy był iście fascynujący. Oczekiwaliście otrzymać tak dobre rezultaty?
Byliśmy zadowoleni z końcowego wyniku, biorąc pod uwagę ograniczenia czasowe. Początkowo Tom wyśmiewał się z dodatkowych funkcji takich jak “Polecane strony” i “Strony, które lubię”; to jednak nie miałem czasu na wdrożenie nowych zapytań API. Także nie udało nam się skończyć wszystko, co planowaliśmy, to jednak wynik front-end przerósł nasze oczekiwania. Tom odwalił kawałek naprawdę dobrej roboty upewniając nas, że nie będą występować żadne błędy API zawieszające naszą aplikację.
Jeśli miałbyś więcej czasu, co jeszcze zmienilibyście w crawlr?
Osobiście chciałbym sprawdzić 5 najważniejszych stron internetowychbiorąc fragment tekstu poszczególnych stron (prawdopodobnie pierwsze X paragrafów po pierwszym H1), a następnie przeanalizować je za pomocą identyfikatora osobowości IBM Watson’a. Moglibyśmy wtedy stworzyć pewne bazy danych na temat ‘osobowości’ dołączone do każdej strony. Pozwoliłyby one nam sprawdzić, czy dana strona jest dość liberalna, zabawna czy też ma dość zamknięte poglądy (bardziej konserwatywne). Pomogłoby to analizować strony jeszcze dokładniej.
Czy był to wasz pierwszy maraton hakerski, a jeśli nie, to w jakich braliście już udział?
To był mój drugi maraton hakerski. Brałem już udział w Machine Learning w Rapallo (Włochy) obsługiwany przez firmę, w której pracowałem w czasie roku przerwy na uniwersytecie. Za pomocą doradztwa Watsona udało nam się opracować zbiór wyników wyszukiwań opartych na naturalnym języku użytkownika, tak aby zbudować małą wyszukiwarkę internetową . Bardzo podobał mi się ten maraton hakerski, ponieważ byliśmy wszyscy w podobnym wieku, o podobnych talentach i takim samym poziomie entuzjazmu! Robiliśmy sobie kolejki do spania (a spaliśmy niewiele), ale nie przeszkadzało nam to!
Co podobało wam się najbardziej w tym turnieju?
Bardzo podobały mi się perspektywy kombinacji oprogramowania geo-aware z analizą domeny dla rankingów biznesowych. Uważam, że ma to wiele zalet (jak na przykład odwrócenie sytuacji, gdzie sklep ma świetną stronę i dobrze sobie radzi; dlaczego więc nie ma go wysoko w rankingach?). Po wielu rozmowach z chłopakami (Drużyna Jill), którzy zbudowali aplikację edukacyjną, oraz widząc ich entuzjazm; uważam, że może to poprawić jakość nauczania w Internecie (na przykład uniwersytetów online).
——————————————————————————————————————————————————
Bardzo cieszymy się z możliwości poznania Max’a, Tom’a i John’a; oraz wielu nowych rozwiązań wykorzystywania danych Majestic.