source: spip-zone/_core_/plugins/sites/genie/syndic.php @ 70245

Last change on this file since 70245 was 70245, checked in by marcimat@…, 7 years ago

Phpdoc (broutilles)

File size: 10.2 KB
Line 
1<?php
2
3/***************************************************************************\
4 *  SPIP, Systeme de publication pour l'internet                           *
5 *                                                                         *
6 *  Copyright (c) 2001-2013                                                *
7 *  Arnaud Martin, Antoine Pitrou, Philippe Riviere, Emmanuel Saint-James  *
8 *                                                                         *
9 *  Ce programme est un logiciel libre distribue sous licence GNU/GPL.     *
10 *  Pour plus de details voir le fichier COPYING.txt ou l'aide en ligne.   *
11\***************************************************************************/
12
13/**
14 * Gestion des actualisation des sites syndiqués
15 *
16 * @package SPIP\Sites\Genie
17**/
18
19if (!defined("_ECRIRE_INC_VERSION")) return;
20include_spip('inc/syndic');
21
22## valeurs modifiables dans mes_options
23## attention il est tres mal vu de prendre une periode < 20 minutes
24if (!defined('_PERIODE_SYNDICATION'))
25        define('_PERIODE_SYNDICATION', 2*60);
26if (!defined('_PERIODE_SYNDICATION_SUSPENDUE'))
27        define('_PERIODE_SYNDICATION_SUSPENDUE', 24*60);
28
29
30/**
31 * Cron de mise à jour des sites syndiqués
32 *
33 * @param int $t Date de dernier passage
34 * @return int
35**/
36function genie_syndic_dist($t) {
37        return executer_une_syndication();
38}
39
40
41/**
42 * Effectuer la syndication d'un unique site
43 *
44 * Choisit le site le plus proche à mettre à jour
45 *
46 * @return
47 *     retourne 0 si aucun a faire ou echec lors de la tentative
48**/
49function executer_une_syndication() {
50
51        // On va tenter un site 'sus' ou 'off' de plus de 24h, et le passer en 'off'
52        // s'il echoue
53        $where = sql_in("syndication", array('sus','off')) . "
54        AND NOT(" . sql_date_proche('date_syndic', (0 - _PERIODE_SYNDICATION_SUSPENDUE) , "MINUTE") . ')';
55        $id_syndic = sql_getfetsel("id_syndic", "spip_syndic", $where, '', "date_syndic", "1");
56        if ($id_syndic) {
57                // inserer la tache dans la file, avec controle d'unicite
58                job_queue_add('syndic_a_jour','syndic_a_jour',array($id_syndic),'genie/syndic',true);
59        }
60
61        // Et un site 'oui' de plus de 2 heures, qui passe en 'sus' s'il echoue
62        $where = "syndication='oui'
63        AND NOT(" . sql_date_proche('date_syndic', (0 - _PERIODE_SYNDICATION) , "MINUTE") . ')';
64        $id_syndic = sql_getfetsel("id_syndic", "spip_syndic", $where, '', "date_syndic", "1");
65
66        if ($id_syndic) {
67                // inserer la tache dans la file, avec controle d'unicite
68                job_queue_add('syndic_a_jour','syndic_a_jour',array($id_syndic),'genie/syndic',true);
69        }
70
71        return 0;
72}
73
74
75/**
76 * Mettre à jour le site
77 *
78 * Attention, cette fonction ne doit pas etre appellee simultanement
79 * sur un meme site: un verrouillage a du etre pose en amont.
80 * => elle doit toujours etre appelee par job_queue_add
81 *
82 * @param int $now_id_syndic
83 *     Identifiant du site à mettre à jour
84 * @return bool|string
85 */
86function syndic_a_jour($now_id_syndic) {
87        include_spip('inc/texte');
88        $call = debug_backtrace();
89        if ($call[1]['function']!=='queue_start_job')
90                spip_log("syndic_a_jour doit etre appelee par JobQueue Cf. http://trac.rezo.net/trac/spip/changeset/10294",_LOG_ERREUR);
91
92        $row = sql_fetsel("*", "spip_syndic", "id_syndic=".intval($now_id_syndic));
93
94        if (!$row) return;
95
96        $url_syndic = $row['url_syndic'];
97        $url_site = $row['url_site'];
98
99        if ($row['moderation'] == 'oui')
100                $moderation = 'dispo';  // a valider
101        else
102                $moderation = 'publie'; // en ligne sans validation
103
104        // determiner le statut a poser en cas d'echec : sus par defaut
105        // off si le site est deja off, ou sus depuis trop longtemps
106        $statut = 'sus';
107        if (
108                $row['statut']=='off'
109          OR ($row['statut']=='sus' AND time()-strtotime($row['date_syndic'])>_PERIODE_SYNDICATION_SUSPENDUE*60)
110          )
111                $statut = 'off';
112
113        sql_updateq('spip_syndic', array('syndication'=>$statut, 'date_syndic'=>date('Y-m-d H:i:s')), "id_syndic=".intval($now_id_syndic));
114
115        // Aller chercher les donnees du RSS et les analyser
116        include_spip('inc/distant');
117        $rss = recuperer_page($url_syndic, true);
118        if (!$rss)
119                $articles = _T('sites:avis_echec_syndication_02');
120        else
121                $articles = analyser_backend($rss, $url_syndic);
122
123        // Renvoyer l'erreur le cas echeant
124        if (!is_array($articles)) return $articles;
125
126        // Les enregistrer dans la base
127
128        $faits = array();
129        foreach ($articles as $data) {
130                inserer_article_syndique ($data, $now_id_syndic, $moderation, $url_site, $url_syndic, $row['resume'], $row['documents'], $faits);
131        }
132
133        // moderation automatique des liens qui sont sortis du feed
134        if (count($faits) > 0) {
135                $faits = sql_in("id_syndic_article", $faits, 'NOT');
136                if ($row['miroir'] == 'oui') {
137                        sql_update('spip_syndic_articles', array('statut'=>"'off'", 'maj'=>'maj'), "id_syndic=$now_id_syndic AND $faits");
138                }
139        // suppression apres 2 mois des liens qui sont sortis du feed
140                if ($row['oubli'] == 'oui') {
141
142                  sql_delete('spip_syndic_articles', "id_syndic=$now_id_syndic AND NOT(" . sql_date_proche('maj', -2, 'MONTH') . ') AND NOT(' . sql_date_proche('date', -2, 'MONTH') . ") AND $faits");
143                }
144        }
145
146        // Noter que la syndication est OK
147        sql_updateq("spip_syndic", array("syndication" => 'oui'), "id_syndic=".intval($now_id_syndic));
148
149        return false; # c'est bon
150}
151
152
153//
154// Insere un article syndique (renvoie true si l'article est nouveau)
155// en  verifiant qu'on ne vient pas de l'ecrire avec
156// un autre item du meme feed qui aurait le meme link
157//
158// http://doc.spip.org/@inserer_article_syndique
159function inserer_article_syndique ($data, $now_id_syndic, $statut, $url_site, $url_syndic, $resume, $documents, &$faits) {
160        // Creer le lien s'il est nouveau - cle=(id_syndic,url)
161        // On coupe a 255 caracteres pour eviter tout doublon
162        // sur une URL de plus de 255 qui exloserait la base de donnees
163        $le_lien = substr($data['url'], 0,255);
164
165        // si true, un lien deja syndique arrivant par une autre source est ignore
166        // par defaut [false], chaque source a sa liste de liens, eventuellement
167        // les memes
168        if (!defined('_SYNDICATION_URL_UNIQUE')) define('_SYNDICATION_URL_UNIQUE', false);
169
170        // Si false, on ne met pas a jour un lien deja syndique avec ses nouvelles
171        // donnees ; par defaut [true] : on met a jour si le contenu a change
172        // Attention si on modifie a la main un article syndique, les modifs sont
173        // ecrasees lors de la syndication suivante
174        if (!defined('_SYNDICATION_CORRECTION')) define('_SYNDICATION_CORRECTION', true);
175
176        // Chercher les liens de meme cle
177        // S'il y a plusieurs liens qui repondent, il faut choisir le plus proche
178        // (ie meme titre et pas deja fait), le mettre a jour et ignorer les autres
179        $n = 0;
180        $s = sql_select("id_syndic_article,titre,id_syndic,statut", "spip_syndic_articles",
181                "url=" . sql_quote($le_lien)
182                . (_SYNDICATION_URL_UNIQUE
183                        ? ''
184                        : " AND id_syndic=$now_id_syndic")
185                ." AND " . sql_in('id_syndic_article', $faits, 'NOT'), "", "maj DESC");
186        while ($a = sql_fetch($s)) {
187                $id =  $a['id_syndic_article'];
188                $id_syndic = $a['id_syndic'];
189                if ($a['titre'] == $data['titre']) {
190                        $id_syndic_article = $id;
191                        break;
192                }
193                $n++;
194        }
195        // S'il y en avait qu'un, le prendre quel que soit le titre
196        if ($n == 1)
197                $id_syndic_article = $id;
198        // Si l'article n'existe pas, on le cree
199        elseif (!isset($id_syndic_article)) {
200                $champs = array(
201                        'id_syndic' => $now_id_syndic,
202                        'url' => $le_lien,
203                        'date' => date("Y-m-d H:i:s", $data['date'] ? $data['date'] : $data['lastbuilddate']),
204                        'statut'  => $statut
205                );
206                // Envoyer aux plugins
207                $champs = pipeline('pre_insertion',
208                        array(
209                                'args' => array(
210                                        'table' => 'spip_syndic_articles',
211                                ),
212                                'data' => $champs
213                        )
214                );
215                $ajout = $id_syndic_article = sql_insertq('spip_syndic_articles', $champs);
216                if (!$ajout) return;
217                pipeline('post_insertion',
218                        array(
219                                'args' => array(
220                                        'table' => 'spip_syndic_articles',
221                                        'id_objet' => $id_syndic_article
222                                ),
223                                'data' => $champs
224                        )
225                );
226        }
227        $faits[] = $id_syndic_article;
228
229
230        // Si le lien n'est pas nouveau, plusieurs options :
231        if (!$ajout) {
232                // 1. Lien existant : on corrige ou pas ?
233                if (!_SYNDICATION_CORRECTION) {
234                        return;
235                }
236                // 2. Le lien existait deja, lie a un autre spip_syndic
237                if (_SYNDICATION_URL_UNIQUE AND $id_syndic != $now_id_syndic)
238                        return;
239        }
240
241        // Descriptif, en mode resume ou mode 'full text'
242        // on prend en priorite data['descriptif'] si on est en mode resume,
243        // et data['content'] si on est en mode "full syndication"
244        if ($resume != 'non') {
245                // mode "resume"
246                $desc = strlen($data['descriptif']) ?
247                        $data['descriptif'] : $data['content'];
248                $desc = couper(trim_more(textebrut($desc)), 300);
249        } else {
250                // mode "full syndication"
251                // choisir le contenu pertinent
252                // & refaire les liens relatifs
253                $desc = strlen($data['content']) ?
254                        $data['content'] : $data['descriptif'];
255                $desc = liens_absolus($desc, $url_syndic);
256        }
257
258        // tags & enclosures (preparer spip_syndic_articles.tags)
259        $tags = ($data['enclosures']?$data['enclosures']:'');
260        # eviter les doublons (cle = url+titre) et passer d'un tableau a une chaine
261        if ($data['tags']) {
262                $vus = array();
263                foreach ($data['tags'] as $tag) {
264                        $cle = supprimer_tags($tag).extraire_attribut($tag,'href');
265                        $vus[$cle] = $tag;
266                }
267                $tags .= ($tags ? ', ' : '') . join(', ', $vus);
268        }
269
270        // Mise a jour du contenu (titre,auteurs,description,date?,source...)
271        $vals = array(
272                        'titre' => $data['titre'],
273                        'lesauteurs' => $data['lesauteurs'],
274                        'descriptif' => $desc,
275                        'lang'=> substr($data['lang'],0,10),
276                        'source' => substr($data['source'],0,255),
277                        'url_source' => substr($data['url_source'],0,255),
278                        'tags' => $tags);
279
280        // Mettre a jour la date si lastbuilddate
281        if ($data['lastbuilddate'])
282                $vals['date']= date("Y-m-d H:i:s", $data['lastbuilddate']);
283                                   
284        sql_updateq('spip_syndic_articles', $vals, "id_syndic_article=$id_syndic_article");
285
286        // Point d'entree post_syndication
287        pipeline('post_syndication',
288                array(
289                        'args' => array(
290                                'table' => 'spip_syndic_articles',
291                                'id_objet' => $id_syndic_article,
292                                'url' => $le_lien,
293                                'id_syndic' => $now_id_syndic,
294                                'ajout' => $ajout,
295                        ),
296                        'data' => $data
297                )
298        );
299
300        return $ajout;
301}
302
303/**
304 * Nettoyer les contenus de flux qui utilisent des espaces insécables en début
305 * pour faire un retrait.
306 *
307 * Peut être sous la forme de l'entité `&nbsp;` ou en utf8 `\xc2\xa0`
308 *
309 * @param  string $texte
310 * @return string
311 */
312function trim_more($texte){
313        $texte = trim($texte);
314        // chr(194)chr(160)
315        $texte = preg_replace(",^(\s|(&nbsp;)|(\xc2\xa0))+,ums","",$texte);
316        return  $texte;
317}
318?>
Note: See TracBrowser for help on using the repository browser.