Posts Tagged ‘semantic web’

Wyszukiwanie na portalach Miaston

2010.10.15

Być może nie raz trudno Ci było wyszukać informacje na portalach Miaston, np. na Forum lub w dziale Sondy. Aby rozwiązać tą często uciążliwą sytuację, w górnym prawym rogu została umieszczona wyszukiwarka, która umożliwia przeszukiwanie zawartości portali Miaston. Mimo obecności tej jednej wyszukiwarki w górnym prawym rogu, wyszukiwanie w portalach Miaston i w ogóle w Internecie można przeprowadzać na wiele różnych sposobów. W tym wpisie opiszę trzy z nich.

Załóżmy, że chcemy znaleźć ogłoszenia dotyczące pracy na http://www.ostrowiecnr1.pl. Do wyszukania można użyć:

Wyszukiwarka w górnym prawym rogu portali Miaston to wyszukiwarka działająca pod napędem wyszukiwarki internetowej Google. Ta wyszukiwarka jest tak ustawiona, że przeszukuje tylko portal, na którym się znajduje (np. glogow.miaston.pl). Wyszukiwanie odbywa się w powiązaniu z wpisaną frazą. Wyniki wyświetlane są w portalu Miston.

Jeśli więc wpisze się na http://www.ostrowiecnr1.pl frazę „ogłoszenie praca” i kliknie przycisk „Szukaj w Portalu”, to można powiedzieć, że Google wyszuka na http://www.ostrowiecnr1.pl te strony, na których jest jakaś treść o ogłoszeniach i o pracy, przy czym prawie zawsze będą to faktycznie ogłoszenia dotyczące szukania pracy lub oferowania pracy (chociaż może się wkraść np. wątek z Forum, na którym ktoś napisał „poszukaj ofert pracy w ogłoszeniach”).

Identyczny rezultat jak opisany powyżej uzyskamy wpisując na stronie http://www.google.pl frazę „site:ostrowiecnr1.pl ogłoszenie praca” (po dwukropku nie może być spacji). Taka fraza przeszukuje tylko domenę ostrowiecnr1.pl pod kątem obecności w tej domenie (na tej stronie) frazy „ogłoszenie praca”.

Wyszukiwanie - Miaston - Google - dające ten sam rezultat

Obie powyższe metody powinny wyświetlić taką samą listę wyników. Sprawdź tutaj:

Po wpisaniu na http://www.google.pl frazy „site:ostrowiecnr1.pl ogłoszenie praca” lub w górnym prawym rogu samego „ogłoszenie praca” – mogą zostać odnalezione także strony, na których brak jest ogłoszeń dotyczących pracy (np. wspomniany wcześniej wątek na Forum z tekstem „poszukaj ofert pracy w ogłoszeniach”). Dlatego istnieją sposoby, aby jeszcze bardziej zawęzić kryteria wyszukiwania. Można np. szukać na http://www.google.pl z użyciem fraz bardziej szczegółowych typu: „site:ostrowiecnr1.pl/forum/watek/   zarobki”, „site:ostrowiecnr1.pl/zdjecie/   ulica polna” itd. W górnym prawym rogu portali Miaston należałoby wpisać odpowiedniki bez polecenia „site:”, a więc: „forum wątek zarobki” oraz „zdjęcie ulica polna”.

Wyszukiwanie - Miaston - Google - dające trochę inny rezultat

Powyższe wyszukiwania mogą przedstawić nieco inne wyniki, ponieważ wyszukują one faktycznie tak:

  • pierwsze: „site:ostrowiecnr1.pl forum wątek zarobki” – wyszukuje strony w portalu, na których jest jakaś informacja o: forach, wątkach i zarobkach, przy czym prawie zawsze będą to wątki na Forum, w których jest jakaś informacja o zarobkach,
  • drugie: „site:ostrowiecnr1.pl/forum/watek/ zarobki” – wyszukuje wyłącznie wątki na Forum, w których jest jakaś informacja o zarobkach; taka fraza nie może być póki co wpisana w górnym prawym rogu portalu Miaston, ale na http://www.google.pl jak najbardziej tak.

Zawężanie z użyciem „site:” zawsze daje bardziej precyzyjne wyniki wyszukiwania, ale wymaga większej znajomości budowy adresów URL na danym portalu (np. trzeba wiedzieć, że na http://www.ostrowiecnr1.pl każde ogłoszenie znajduje się pod adresem zaczynającym się od „www.ostrowiecnr1.pl/ogloszenie/”, a zdjęcie pod adresem zaczynającym się od „www.ostrowiecnr1.pl/zdjecie/” itd.). W górnym prawym rogu portali Miaston nie powinno się wpisywać fraz z „site:”, ponieważ domyślnie ustawione jest „site:ostrowiecnr1.pl” i nie można tego nadpisać wpisując frazę z „site:”.

Ważne jest to, że Google mogło nie zaindeksować (nie zauważyć lub zauważyć i nie uznać za istotne) niektórych stron. Więc np. jeśli istnieje 50 stron, na których jest napisane coś o ogłoszeniach i pracy, a Google zaindeksowało 48 z tych stron, to te 2 niezaindeksowane nie zostaną przedstawione w wynikach wyszukiwania. Wyszukiwarki wyszukują i pokazują w wynikach wyszukiwania tylko to, co zauważyły na danej stronie i co uznały za istotne; wyszukiwarki mogą pomijać niektóre strony w wynikach wyszukiwania.

Alternatywą dla wyszukiwarek internetowych są wyszukiwarki mające bezpośredni dostęp do wewnętrznej bazy danych danego portalu. Takie wyszukiwarki mają dostęp do nawet wszystkich danych, ale to nie oznacza, że są lepsze. Miaston - Wyszukwianie w dziale Ogłoszenia - fraza - pracaPowróćmy do ogłoszenia o pracę. Na http://www.ostrowiecnr1.pl/ogloszenia/szukaj/ można wpisać frazę „praca, aby wyszukać ogłoszenia związane z pracą. Faktycznie oznacza to: „wyszukaj ogłoszenia zawierające dokładnie słowo ‚praca‚”, a więc jeśli istnieje ogłoszenie „Oferuję pracę…” lub „Szukam pracy…”, to ani jedno, ani drugie nie zostanie odnalezione, ale już „Praca w charakterze…” tak. Ten przykład dotyczy prostej sytuacji; istnieją o wiele bardziej skomplikowane, np. osoba szukająca może wpisać frazę „szukam pracownika w Ostrowcu” – przy takich frazach znacznie lepiej radzą sobie wyszukiwarki internetowe.

Wyszukiwarki mające bezpośredni dostęp do bazy danych danego portalu mają często dostęp do wszystkich danych, ale sam mechanizm (sposób) wyszukiwania wśród tych danych prawie zawsze jest trochę słabszy niż mechanizm, którego używają wyszukiwarki internetowe, np. Google, NetSprint czy Bing. Po prostu wyszukiwarki internetowe świetnie znają się na wyszukiwaniu, specjalizują się w tym i dlatego ich mechanizmy wyszukiwania są bardzo dobre.

Jak wyszukiwać? Prawdopodobnie w znacznej większości wyszukiwań większą użyteczność mają wyszukiwarki internetowe, takie jak Google. Po pierwsze wyszukiwarki internetowe mają bardzo duże doświadczenie w ocenianiu tego, co najlepiej pasuje do danej frazy. Po drugie starają się zrozumieć, co osoba szukająca miała na myśli pisząc przykładowe „ogłoszenie praca” (ogłoszenie z ofertą pracodawcy czy ogłoszenie z ofertą osoby gotowej do podjęcia pracy?). Po trzecie sortują wyniki według trafności (a nie np. według daty czy alfabetycznie).  Po czwarte…, po piąte…, po szóste… itd.

Wyszukiwarka mająca dostęp do wewnętrznej bazy danych może mieć przewagę nad wyszukiwarkami internetowymi, jeśli celem jest wyjątkowo szczegółowe przefiltrowanie informacji. Wyszukiwarka taka może filtrować dane w taki sposób, w jaki wyszukiwarki internetowe jeszcze długo nie będą potrafiły. Np. w dziale Zdjęcia portali Miaston można filtrować komentarze. Filtrowanie komentarzy jest niczym innym jak wyszukiwaniem komentarzy w wewnętrznej bazie danych. Np. można odfiltrować komentarze napisane tylko przez osoby zalogowane. Czy można by było wyszukać takie komentarze przy użyciu wyszukiwarki internetowej? Raczej nie. Bo jak chociażby miałaby wyglądać fraza wyszukiwania? „zdjęcia komentarze zalogowanych site:ostrowiecnr1.pl/zdjecie/”? Rezultat byłby raczej inny, niż byśmy oczekiwali. To może „pokaż komentarze napisane przez zalogowanych użytkowników pod zdjęciami na http://www.ostrowiecnr1.pl”? Też nie – zdecydowanie za długie i za trudne dla wyszukiwarek. Tak szczegółowe filtrowanie mogą póki co wykonać tylko wyszukiwarki wewnętrzne mające dostęp do wewnętrznej bazy danych. (Nie wspominając o sposobie prezentacji wyników wyszukiwania; np. komentarze w dziale Zdjęcia prezentowane są razem z miniaturkami zdjęć, pod którymi zostały napisane.)

Bardziej szczegółowe wyszukiwanie przez wyszukiwarki internetowe (bez dostępu do wewnętrznej bazy danych) to kwestia przyszłości zwanej Semntic Web (Sieć Semantyczna). Semantic Web nadejdzie wtedy, kiedy ludzie sprawią, że wyszukiwarki internetowe zaczną doskonale „rozumieć” treści znajdujące się na stronach internetowych. Dziś wyszukiwarki internetowe raczej nie rozumieją treści w Internecie, ale tylko je widzą. Kiedy Semantic Web będzie standardem, wtedy napiszę kolejny wpis na temat wyszukiwania. Ale to nastąpi pewnie za jakieś 20 (?) lat ;-) .