1: <?php
2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12:
13:
14: defined('CON_FRAMEWORK') || die('Illegal call: Missing framework initialization - request aborted.');
15:
16: function calcDensity($singlewordcounter, $string, $quantifier = 1) {
17: $minLen = 3;
18:
19:
20:
21:
22: if (cRegistry::getLanguageId() == 1)
23:
24: $blacklist = array(
25: 'in',
26: 'der',
27: 'und',
28: 'zu',
29: 'den',
30: 'das',
31: 'nicht',
32: 'von',
33: 'sie',
34: 'ist',
35: 'des',
36: 'sich',
37: 'mit',
38: 'sorgt',
39: 'dem',
40: 'dass',
41: 'er',
42: 'es',
43: 'ein',
44: 'ich',
45: 'auf',
46: 'so',
47: 'eine',
48: 'auch',
49: 'als',
50: 'an',
51: 'nach',
52: 'wie',
53: 'im',
54: 'für',
55: 'man',
56: 'aber',
57: 'aus',
58: 'durch',
59: 'wenn',
60: 'nur',
61: 'war',
62: 'noch',
63: 'werden',
64: 'bei',
65: 'hat',
66: 'wir',
67: 'was',
68: 'wird',
69: 'sein',
70: 'einen',
71: 'welche',
72: 'sind',
73: 'oder',
74: 'zur',
75: 'um',
76: 'haben',
77: 'einer',
78: 'mir',
79: 'über',
80: 'ihm',
81: 'diese',
82: 'einem',
83: 'ihr',
84: 'uns',
85: 'da',
86: 'zum',
87: 'kann',
88: 'doch',
89: 'vor',
90: 'dieser',
91: 'mich',
92: 'ihn',
93: 'du',
94: 'hatte',
95: 'seine',
96: 'mehr',
97: 'am',
98: 'denn',
99: 'nun',
100: 'unter',
101: 'sehr',
102: 'selbst',
103: 'schon',
104: 'hier',
105: 'bis',
106: 'habe',
107: 'ihre',
108: 'dann',
109: 'ihnen',
110: 'seiner',
111: 'alle',
112: 'wieder',
113: 'meine',
114: 'Zeit',
115: 'gegen',
116: 'vom',
117: 'ganz',
118: 'einzelnen',
119: 'wo',
120: 'muss',
121: 'ohne',
122: 'eines',
123: 'können',
124: 'sei',
125: 'ja',
126: 'wurde',
127: 'jetzt',
128: 'immer',
129: 'seinen',
130: 'wohl',
131: 'dieses',
132: 'ihren',
133: 'würde',
134: 'diesen',
135: 'sondern',
136: 'weil',
137: 'welcher',
138: 'nichts',
139: 'diesem',
140: 'alles',
141: 'waren',
142: 'will',
143: 'Herr',
144: 'viel',
145: 'mein',
146: 'also',
147: 'soll',
148: 'worden',
149: 'lassen',
150: 'dies',
151: 'machen',
152: 'ihrer',
153: 'weiter',
154: 'Leben',
155: 'recht',
156: 'etwas',
157: 'keine',
158: 'seinem',
159: 'ob',
160: 'dir',
161: 'allen',
162: 'großen',
163: 'die',
164: 'Jahre',
165: 'Weise',
166: 'müssen',
167: 'welches',
168: 'wäre',
169: 'erst',
170: 'einmal',
171: 'Mann',
172: 'hätte',
173: 'zwei',
174: 'dich',
175: 'allein',
176: 'Herren',
177: 'während',
178: 'Paragraph',
179: 'anders',
180: 'Liebe',
181: 'kein',
182: 'damit',
183: 'gar',
184: 'Hand',
185: 'Herrn',
186: 'euch',
187: 'sollte',
188: 'konnte',
189: 'ersten',
190: 'deren',
191: 'zwischen',
192: 'wollen',
193: 'denen',
194: 'dessen',
195: 'sagen',
196: 'bin',
197: 'Menschen',
198: 'gut',
199: 'darauf',
200: 'wurden',
201: 'weiß',
202: 'gewesen',
203: 'Seite',
204: 'bald',
205: 'weit',
206: 'große',
207: 'solche',
208: 'hatten',
209: 'eben',
210: 'andern',
211: 'beiden',
212: 'macht',
213: 'sehen',
214: 'ganze',
215: 'anderen',
216: 'lange',
217: 'wer',
218: 'ihrem',
219: 'zwar',
220: 'gemacht',
221: 'dort',
222: 'kommen',
223: 'Welt',
224: 'heute',
225: 'Frau',
226: 'werde',
227: 'derselben',
228: 'ganzen',
229: 'deutschen',
230: 'lässt',
231: 'vielleicht',
232: 'meiner',
233: 'bereits',
234: 'späteren',
235: 'möglich',
236: 'sowie'
237: );
238: else {
239: $blacklist = array();
240: $minLen = 5;
241: }
242:
243:
244: for ($i = 0; $i < count($blacklist); $i++) {
245: $blacklist[$i] = ltrim(cString::toLowerCase($blacklist[$i]), '');
246: }
247: $tmp = explode(' ', $string);
248: $tmp_size = sizeof($tmp);
249:
250: for ($i = 0; $i < $tmp_size; $i++) {
251: if (cString::getStringLength($tmp[$i]) < $minLen) {
252: continue;
253: }
254:
255:
256: $patterns = array(
257: '/[.,:]/'
258: );
259: $replaces = array(
260: ''
261: );
262: $tmp[$i] = preg_replace($patterns, $replaces, $tmp[$i]);
263:
264:
265: $tmp[$i] = rtrim($tmp[$i], '-');
266:
267:
268: (!ctype_upper($tmp[$i])) ? $tmp[$i] = cString::toLowerCase(addslashes($tmp[$i])) : $tmp[$i] = addslashes(preg_replace($patterns, $replaces, $tmp[$i]));
269:
270: if (!array_search($tmp[$i], $blacklist)) {
271:
272:
273: if (ctype_upper($tmp[$i])) {
274: if (empty($singlewordcounter[cString::toLowerCase($tmp[$i])])) {
275: $singlewordcounter[cString::toLowerCase($tmp[$i])] = 0;
276: }
277: $singlewordcounter[cString::toLowerCase($tmp[$i])] += cString::getStringLength($tmp[$i]) + 10000;
278: } else {
279: if (empty( $singlewordcounter[$tmp[$i]])) {
280: $singlewordcounter[$tmp[$i]] = 0;
281: }
282: $singlewordcounter[$tmp[$i]] += cString::getStringLength($tmp[$i]);
283: }
284: }
285: }
286:
287: return $singlewordcounter;
288: }
289:
290: function __cmp($a, $b) {
291: if ($a == $b)
292: return 0;
293: return ($a > $b) ? -1 : 1;
294: }
295:
296: function stripCount($singlewordcounter, $maxKeywords = 15) {
297:
298:
299: $tmp = array();
300:
301: $result = array();
302:
303: $tmpToRemove = 1;
304: foreach ($singlewordcounter as $key => $value) {
305: if ($value > $tmpToRemove) {
306: $tmp[$key] = $value;
307: }
308: }
309:
310: if (sizeof($tmp) <= $maxKeywords) {
311: foreach ($tmp as $key => $value) {
312: $result[] = $key;
313: }
314: } else {
315: $dist = array();
316:
317: foreach ($tmp as $key => $value) {
318: if (!isset($dist[$value])) {
319: $dist[$value] = 0;
320: } else {
321: $dist[$value]++;
322: }
323: }
324:
325: uksort($dist, "__cmp");
326: reset($dist);
327:
328: $count = 0;
329:
330: $resultset = array();
331: $useQuantity = array();
332:
333: foreach ($dist as $key => $value) {
334:
335: $_count = $count + $value;
336: if ($_count <= $maxKeywords) {
337: $count += $value;
338: $useQuantity[] = $key;
339: } else {
340: break;
341: }
342: }
343:
344:
345: foreach ($singlewordcounter as $key => $value) {
346: if (in_array($value, $useQuantity)) {
347: $result[] = $key;
348: }
349: }
350: }
351: return $result;
352: }
353:
354: function keywordDensity($headline, $text) {
355: global $lang, $client, $cfgClient;
356:
357: $headline = strip_tags($headline);
358: $text = strip_tags($text);
359:
360: $text = conHtmlEntityDecode($text);
361:
362:
363:
364: $patterns = array(
365: '#&[a-z]+\;#i',
366: '#\s+#'
367: );
368: $replaces = array(
369: '',
370: ' '
371: );
372: $text = preg_replace($patterns, $replaces, $text);
373:
374:
375:
376:
377:
378:
379: $singlewordcounter = array();
380:
381:
382: $singlewordcounter = calcDensity($singlewordcounter, $text);
383:
384:
385: $singlewordcounter = calcDensity($singlewordcounter, $headline, 2);
386:
387:
388:
389:
390: arsort($singlewordcounter, SORT_NUMERIC);
391: $singlewordcounter = stripCount($singlewordcounter);
392:
393: if (!is_array($singlewordcounter)) {
394: return false;
395: } else {
396: return implode(', ', $singlewordcounter);
397: }
398: }
399: ?>
400: