SeoSphere SeoSphere


  Répondre à ce sujetDémarrer un nouveau sujetDémarrer un sondage

> identifier un site avec du contenu adulte (ou pas)
maxime
Ecrit le : 22/02/10 à 14:25
Répondre en citant


Membre régulier
***

Groupe : Membre
Messages : 37
Membre n° 21929
Inscrit le : 06/08/09




Bonjour,

J'ai un annuaire de sites (pas celui en signature wink.gif), il est ouvert de manière assez large aux inscriptions, sauf pour les sites adultes. Or ceux-ci représentent pas mal de boulot de modération sad.gif

Je souhaite mettre un filtre automatique pour ce type de site (en plus du captchas).

Ce que je fais déjà, l'annuaire étant en français uniquement, j'utilise l'API de traduction de Google pour déterminer la probabilité qu'un site soit en français.
Si ce n'est pas du français, je le sort.

J'aimerai faire la même chose pour les sites X.
J'ai bien pensé parser quelques pages html à la recherche de mots-clés, mais si vous avez une meilleure idée, je suis preneur rolleyes.gif



Prestataires, inscrivez vous sur l'Annuaire Prestataires e-commerce !
Vous y trouverez en autre des prestataire prestashop
Raccoucisseur d'url avec API
MPSite Internet
Top
Gorapat
Ecrit le : 22/02/10 à 16:09
Répondre en citant


Membre acharné
******

Groupe : Membre
Messages : 806
Membre n° 14223
Inscrit le : 18/07/08




Déja un truc simple:

Proposer un lien de soumission spécifique pour les sites X.

(libre à toi de diriger les webmasters vers un annuaire x partenaire
spécifique par exemple)

>>> comme ça tu éviteras à mon avis un bon paquet de soumissions X
sur ton annu non X



Affiliation Voyance Goracash
Marque Blanche - Flux Xml - Outils évolués - Horoscope du jour - Contenus frais pour vos sites
Bénédiction de serveurs web
MPSite Internet
Top
maxime
Ecrit le : 23/02/10 à 17:16
Répondre en citant


Membre régulier
***

Groupe : Membre
Messages : 37
Membre n° 21929
Inscrit le : 06/08/09




Je n'ai rien trouver de vraiment satisfaisant. J'ai donc codé vite fait ceci, si ça peut servir à quelqu'un.
Un petit backlink sur le lien en signature serait le bienvenue wink.gif
CODE
<?php
error_reporting(99999999999999999);
set_time_limit(0);

function get_text($url)
{  
 $useragent = 'Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.9.1.1) Gecko/20090715 Firefox/3.5.1';
 
 $ch = curl_init();
 curl_setopt($ch, CURLOPT_USERAGENT, $useragent);
 curl_setopt($ch, CURLOPT_URL,$url);
 curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
 
 curl_setopt($ch, CURLOPT_TIMEOUT, 10);
 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);

       
 $result = curl_exec ($ch);
 curl_close ($ch);
 
 if ($result == '') return -1;
 
 $result = preg_replace('@<script[^>]*?>.*?</script>@si', '', $result);
 return strtolower(strip_tags($result));
}

$texte = get_text('http://www.voissa.com');
$nombre_mot = str_word_count($texte);
$adulte = substr_count($texte, ' sex') + substr_count($texte, 'petit cachet bleu')  + substr_count($texte, 'porn');
$proba = round($adulte * 100 / $nombre_mot, 2);
echo "$proba % ";
?>



Prestataires, inscrivez vous sur l'Annuaire Prestataires e-commerce !
Vous y trouverez en autre des prestataire prestashop
Raccoucisseur d'url avec API
MPSite Internet
Top
davidc1
Ecrit le : 23/02/10 à 18:57
Répondre en citant


noob de luxe
**********

Groupe : Membres+
Messages : 2651
Membre n° 489
Inscrit le : 07/12/06




pourquoi pas, fait le tourner de temps en temps sur l'ensemble de ta base...



MP
Top
Zonetronik
Ecrit le : 24/02/10 à 10:04
Répondre en citant


Membre acharné
******

Groupe : Membres+
Messages : 599
Membre n° 444
Inscrit le : 25/11/06




Un Vlinks peut faire le nécessaire au mois a 90%

avec une petite modification la validation devient automatique et contrôlé, la validation passe au manuel dès que le robot détecte un contenu non autorisé

Voila un exemple pratique ici: http://www.europeindex.info

Ce script me fait gagner énormément de temps.

Le script original est téléchargeable gratuitement ici: http://www.vlinks.org ou ici: http://www.refzone.info

le script modifié est sur mon bureau

si vous voulez plus de détails contactez moi par mp

bonne journée



MP
Top
sebastienbillard
Ecrit le : 24/02/10 à 11:53
Répondre en citant


Membre assidu
****

Groupe : Membre
Messages : 120
Membre n° 182
Inscrit le : 22/06/06




Je sais pas si quelqu'un a déjà pensé à un algo qui ferait une moyenne des couleurs des images ? Si on trouve beaucoup de pixels dans les tons "chair" ce peut être un indicateur smile.gif



MP
Top
Loki
Ecrit le : 24/02/10 à 13:15
Répondre en citant


Membre assidu
****

Groupe : Membre
Messages : 201
Membre n° 22368
Inscrit le : 28/01/10




QUOTE (maxime @ 23/02/10 à 17:16)
Je n'ai rien trouver de vraiment satisfaisant. J'ai donc codé vite fait ceci, si ça peut servir à quelqu'un.

Pour ma part, j'ai eu une mauvais expérience avec ce genre de filtre, quand j'essayais de référencer le site parisexcursions.fr (domaine qui a été repris par quelqu'un d'autre, après dépôt de bilan de la boite). Tous les annuaires avec filtre le refusaient à cause des 3 lettres s e x dans l'URL, alors que le site était bien loin d'être un site pour adultes.



“Outside of a dog, a book is a man's best friend. Inside of a dog it's too dark to read.” (Groucho Marx).
Le Référencement pour les Nuls
Annuaire garanti sans OGM
MPSite Internet
Top
maxime
Ecrit le : 24/02/10 à 13:54
Répondre en citant


Membre régulier
***

Groupe : Membre
Messages : 37
Membre n° 21929
Inscrit le : 06/08/09




QUOTE (Loki @ 24/02/10 à 13:15)
Pour ma part, j'ai eu une mauvais expérience avec ce genre de filtre, quand j'essayais de référencer le site parisexcursions.fr (domaine qui a été repris par quelqu'un d'autre, après dépôt de bilan de la boite). Tous les annuaires avec filtre le refusaient à cause des 3 lettres s e x dans l'URL, alors que le site était bien loin d'être un site pour adultes.

Ce bout de code en tient compte.
Déjà il ne vérifie pas l'url, mais le contenu, et il recherche " sex", donc sexy sexu... etc sont comptés mais pas mongrosex wink.gif

Et surtout, même si les "stopword" sont limités, il donne un pourcentage de mot adulte.
A 0% c'est tout bon, à plus de 1,5% je n'ai eu que des sites adultes,

Entre les 2 des malins qui parlent un peu de cul pour attirer le chaland sans que le site soit X, ou des sites adultes.
Sur cette frange, décision manuelle obligatoire, en dehors en auto ça semble bien marcher.



Prestataires, inscrivez vous sur l'Annuaire Prestataires e-commerce !
Vous y trouverez en autre des prestataire prestashop
Raccoucisseur d'url avec API
MPSite Internet
Top
Tiger
Ecrit le : 25/02/10 à 14:19
Répondre en citant


I break the captcha ;)
**********

Groupe : Modérateurs
Messages : 3911
Membre n° 94
Inscrit le : 23/01/06




J'ai écrit un petit article avec une proposition de solution :
http://www.seoblackout.com/2010/02/25/dete...-sites-adultes/



SEO contest addict >> Black Hattitude >> Referencement >> SEO Black Hat - White Hat SEO - don't be evil -
Holidays in Dubai City: Dubai Holidays, enjoy your stay in Dubai.
MPSite Internet
Top
Gwaradenn
Ecrit le : 25/02/10 à 14:23
Répondre en citant


SSDD
**********

Groupe : Membres+
Messages : 4904
Membre n° 186
Inscrit le : 04/07/06




Il est fort, il est même très fort!



Le soleil chauffe sur le Globalwarming Awareness2007.
C'est normal, le printemps est la, les fleurs apparaissent, les oiseaux ont chocoku et les Hommes ont une black hattitude complète.
MPSite Internet
Top
mickael44
Ecrit le : 25/02/10 à 17:00
Répondre en citant


Membre actif
**

Groupe : Membre
Messages : 27
Membre n° 22229
Inscrit le : 01/12/09




Salut à tous !

J'ai vu le message trainer sur Twitter et je n'ai pas pu m'empêcher de faire un petit script vite fait :

CODE
<?php
function isAdultSite($url)
{
$search_adress = 'http://www.google.fr/search?hl=fr&safe=active&q=site%3A'.$url.'';
$ch = curl_init();

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1)');
curl_setopt($ch, CURLOPT_URL,$search_adress);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);

$result = curl_exec ($ch);
curl_close ($ch);
 
if ($result == '')
{
 return -1;
}
elseif(preg_match("#Aucun document ne correspond aux termes de recherche#", $result))
{
 return true;
}
else
{
 return false;
}
}

$response = isAdultSite($_GET['url']);
if($response === true)
{
echo "C'est un site classifié comme adulte pour Google";
}
else
{
echo "Ce site n'est pas classifié comme adult par Google";
}
?>


Il a l'air de bien fonctionner. N'hésitez pas à le critiquer et à apporter des modifications ! Par contre, le preg_match est peut-être un peu sale, je l'ai fait vite fait mais l'idée y est.

Cordialement,
Mickael



Envie de tout savoir sur la coupe du monde 2010 ? Rendez-vous sur Blog-CoupeduMonde.com.
Venez visiter DepanneTonPC.net, un site dédié à l'aide informatique.
MickaelViaud.fr - Mon blog personnel
MPSite Internet
Top
Audiofeeline
Ecrit le : 26/02/10 à 02:12
Répondre en citant


Membre indispensable
*****

Groupe : Membre
Messages : 258
Membre n° 2730
Inscrit le : 09/09/07




J'dis ça, je dis rien mais quand il y a une forte demande, il y a une forte offre normalement? Non?... rolleyes.gif
Tout ça pour dire que lorsqu'il faut référencer un site adulte, c'est pas simple...



Buzz : Actualités geek, hight tech, jeux vidéo, musique, cinéma, web...
Musique : Le forum musical généraliste ouvert à tous...
Metal : Blog collaboratif sur l'actualité du métal et du hardcore...
MPSite InternetMSN
Top
sylvain
Ecrit le : 26/02/10 à 10:06
Répondre en citant


Membre acharné
******

Groupe : Membres+
Messages : 855
Membre n° 81
Inscrit le : 14/01/06




QUOTE (sebastienbillard @ 24/02/10 à 11:53)
Je sais pas si quelqu'un a déjà pensé à un algo qui ferait une moyenne des couleurs des images ? Si on trouve beaucoup de pixels dans les tons "chair" ce peut être un indicateur smile.gif

Oui, une équipe de Paris 6 a fait un truc comme ça il y a quelques années (j'avais vu une présentation la dessus en 2005).



MP
Top
0 utilisateur(s) sur ce sujet (0 invités et 0 utilisateurs anonymes)
0 membres :

Options du sujet Répondre à ce sujetDémarrer un nouveau sujetDémarrer un sondage

 

Partenaires : Agence Web | Annuaire | Forum Chocoku | Cigiema | Annuaire FuN | Berbiqui | Référencement | Team | Forum séries | French SEO | Forum SEO | Site gratuit | Backlinks | Référencement Google