2008/08/13

有關更新週期

最近因為工作的轉換, 所以資源的調度有所變化, 因此在更新週期已經超過 7 天了, 甚至最近 google 與 yahoo 相繼改版, 剛剛才又整理一次程式, 這工作幾乎是無間的輪迴阿~~~

雖然已經建立可以加快更新周期的機制, 但這又是須要預算的, 只是過幾天或許另一個機緣的來到就會有這些 client 了, 目前更新週期是 9 天, 已經進入紅燈狀況了, 慘~~~

16 則留言:

看不下去 提到...

如果統計資料是10天前的,
如果統計資料錯誤百出,

不知道你會不會覺得汗顏?
不知道你自己認為這些資料的可信度有多高?

要不要乾脆關起來, 等所有軟硬體皆齊備後再公開呢?
實在不懂你究竟是在撐什麼???

兔爸 提到...

辛苦您了!看來這真是吃力不討好的事情!
在主機及人力都有限制的情形下!這做起這些事真是不容易!

^^"不過一旦加入排名後都會關切自己的名次!看來真是關心則亂哩!不過經您解釋後!更能體諒您的困難之處!

【食夢黑貘】/ Black Tapir 提到...

給暱名的 "看不下去"...

統計資料錯誤不只百出, 而且說不定若要精確一點, 說不定可能上千筆喔, ....

就我的經驗, 可信度的確不高, 至少我估計每次統計, 即使經過修正與回溯資料後, 大約有 50~200 個部落格有 1~3 個資料是錯誤的,也就是說有 50~600 筆資料有問題, 更不要說是更正前了, ...

只是所謂軟硬體備期是不太可能的, 這硬體若要真的完備, 我估計須要 20 萬 ~ 30 萬, 所以我只好到處募集或有些熱心的網友幫忙才能勉強負荷, 只是即使硬體備期, 但軟體更是不可能的, 因為只要抓資料的對像一改版, 資料又會有問題, 又要修正, 這是不可能備期的...

而問我在撐甚麼阿? 只能說我現在還撐得下去吧, 我是還沒想不到若撐不下去怎辦是真的, 只好見招拆招囉...

看不下去 提到...

原諒我說話比較直,
看你的回覆, 就覺得你是在混,

"只要有千千萬萬個部落格連到我這裡來,
我自己的排名就會非常高."

只要能把流量都騙過來,
統計資料正不正確?
管他的呢!

【食夢黑貘】/ Black Tapir 提到...

給暱名的看不下去:

不會啦, 我承認我比較混, 但只是看得出來您是很計較排名的人, 所以把我的動機猜錯了, 若是支持我做部落格觀察的想法, 考慮到自己排名的順序在十名外, 且遠低於 5%, 因為排名對我這種宅男一點都不能吃, 甚至可以肯定的是這絕不是在做的動機~~~~

許多人都搞混前後關係, 所以沒關係, 例如有人認為我因為做部落格觀察衝排名才能去某xx 地方上課, 事實上是剛好相反且時間先後也相反之類的...

我也只能說, 在合理的範圍我已經努力了, 我也一直對錯誤與失效資料很傷腦筋~~~ 雖然這 600 筆占 27 萬筆約 0.2%, 所以我才從以前到現在寫出超過百隻的更新與較對程式, 只是今天解決, 明天又有新的狀況出現, 若是精神好可以立刻解決, 但如您所說的若像您這種人罵幾句後心灰意冷時, 等到提起精神解決問題往往又是幾天過去了, 慘~~~

所以您可以稱我混, 但請千萬不要以為排名是可以吃且重要的, 至少我不覺得重要啦, 所以我才會打算用 "好讀指數" 取代排名這機制的想法...

事實上原本不認識我的人都搞混時間軸了, 例如 "我自己的排名就會非常高" 這件事大約也是必須部落格觀察真的有人用後過半年才可以成立, 認識我本來就很混這種個性就知道, 我才不會為了這種半年以後虛榮的事做努力說~~~, 不然我早就已經大學或研究所畢業了....

所以我比你想像中的更混, 只是您用較有企圖心的想法來猜我, 但我不是那種有追求成功企圖心的人啦~~~~

還是看不下去 提到...

那您也猜錯我了, 我哪有說排名可以吃&很重要? and, 我才不是計較排名的人, 因為我根本沒加入觀察! (哈~)

只是你觀察別人, 我也在觀察你.

忘了是在哪裡看到的討論串了, 我好像沒聽你本人回答過, 所以在這裡向你請教:

A部落格10天前的統計資料 與
B部落格5天前的統計資料 與
C部落格1天前的統計資料

時間點都不同, 這樣的排名有何意義??

謝謝指導.

【食夢黑貘】/ Black Tapir 提到...

回暱名的看不下去的人:

嗯, 所以您應該沒有在懷疑我當時做部落格觀察是為了衝排名這件事了吧?

嗯, 您提出一個有趣的問題, 這答案很簡單, 若您有觀察這些數字來源的話, 就會發現這些數字的變動沒您想像中的大, 不要說是 10 天的差異, 我都常說三週到三個月才會有較大的變動, 所以才會有所謂像 "Google Dance" 這名詞出現, 若這個改變是天天產生的話, 就不會有這事件了...

當然有沒有可能在同一天內同時更新這幾十萬筆的數字, 我想可能這成本又要提升 N 倍了, 只是意義不大罷了, 所以沒必要...

嗯, 我應該很榮幸被 "觀察" 吧~~

但我也很好奇您認為排名不重要, 為甚麼會認為我會認為排名很重要到必須花時間去做與維護這系統呢?

兔爸 提到...

給看不下去:
做這種排名的不是像你想的一樣,圖利自己而已!把自己的排名排上去若沒有相對應的人氣是沒有任何的廣告費效益的!況且一做不好就會惹得一身腥,很容易就遭來罵名,而好處還沒得到時就先被罵到臭頭了!排名對該站站長只是數值問題,並非絕對重要,反而能給站長帶來的實質利率好比收入等,或許比排名更加重要!

給食夢黑貘:
每個加入觀察的人都希望看到自己的成長,所以每位來的人都是在意排名的,拿我來說很少人天天看自己的排名有沒有上去,沒上去是什麼原因,那個原因怎麼不更新,我已經努力去做好那個部份了!對於在意成就感的人來說,看自己沒成長是很痛苦的事^^"

還是看不下去 提到...

"但我也很好奇您認為排名不重要, 為甚麼會認為我會認為排名很重要到必須花時間去做與維護這系統呢?"

(啊~ 這麼多字只有2個標點, 我有點看不懂?)

如果我沒會錯意的話, 我回答2點:

1. 我說排名重要是指某些在'官方討論區'留言的人, '為什麼我排名一下掉了200-300名?'; '為什麼我都不會進步?'; '我好灰心!'; '我都沒有動力了!' 諸如此類的, 不是在說你. (我想我也可以來弄個kuso版的部落格排名, 貼紙隨便選, 要第幾名就第幾名.)

2. 至於維護的問題, 小弟不才, 也在電腦界打滾1X年, 個人認為, 如果做出的系統完全沒有即時(及時?)性可言, 並且錯誤百出, 那這樣的系統我實在沒那個臉拿出來給大家看. (個人觀點, 不是指責你. 單純是回答你的問題.)

【食夢黑貘】/ Black Tapir 提到...

回暱名的還是看不下去的人:

嗯, 您的確有說到我的幾個問題了...

1. 我常辭不達意一直是我的糟糕的地方.

2. 我贊成您去弄個 kuso 版, 或者是隨機版的名次或大獎, 只是這方向跟我不一樣罷了, 我相信是有這市場與價值的...

3. 您又說到我的另一個問題了, 小弟不才, 這十幾年來盡量避免碰金融業等系統, 對於要追求 100% 正確的代價是我這種人做不到的...

要追求一個即時性且沒錯誤的系統是很困難得, 尤其是當複雜度高的時候, 像 ATM 的 downtime 與出問題也是常有所聞, 而那個系統是由數千上萬人花幾億幾兆做出來的, 而這個部落格觀察是由幾個業餘人士用幾萬塊做出來的, 當然是不能相題並論...

只是我唯一懷疑的是即時性, 不知您在那個網路系統可以看到絕對的即時性大系統, 連 google 這種等級都一直說他們系統一直在變動, 但要跑完一次須要好幾個月, 且在這幾個月後又還是有新的沒跑的資料, 而 Yahoo 更不用說了, 所以能否舉個例讓小弟膜拜一下, 或者是您的作品~~~

事實上部落格觀察不可能做到資料穩定性的, 因為連來源的 Yahoo, Google, BlogInfluence, Hemidemi, Tecnorati 的 Downtime 有的雖然在 0.5% 以下, 但有的是高達 20%, 當你的來源已經不穩定了, 怎可能有更高的精確度, 但小弟是沒能力做出一個更好更穩定的系統來取代 Yahoo, Google, Technorati 的資料啦...

所以我猜想您說的穩定性應該是封閉系統吧?

還是看不下去 提到...

就資料的'即時'性, 我說我個人要求好了, 以 google 來說, 他資料跑一次是要跑多久我不管, 可是在'部落格'觀察裡面, 不能說
A部落格抓到是10天前的資料,
B部落格抓到是5天前的資料,
C部落格抓到是1天前的資料,
這樣基準點不同, 拿來排名就很奇怪.
(這麼說好了, 拿A學生的第1次月考成績與B學生的第2次月考成績來排名次. 哪個學校是這樣排的??)

至於'精確'性, 我覺得你有點扯遠了, 'google 數據的可信度究竟有多高?'並不是在你的業務範圍內, 你要管的部份就只是把'數據'抓對'而已, 連'再運算'都不必要. 這就是你要做到的'穩定'性. 不能常常在'官方討論區'看到: '我這裡的資料怎麼沒抓到?' '為什麼在 google 看到的是XXX, 在部落格觀察看到的是XXX?'... 等等. 然後你們工作人員通常就會回答要'手動處理'. (GOD! 就已經是克難級的系統了, 哪有那麼多手來處理呀?!)

【食夢黑貘】/ Black Tapir 提到...

回暱名的還是看不下去的人:

您說的很對, 事實上我說的有效性不是準確度, 您可能真的沒有去抓過沒有交換格式且多樣性的資料經驗, 加上網路的問題, 以及對方 server 停機, 和對方 IDS/IPS 的防止 Spam/Anti-Virus 的問題與可能性, 或許在您的眼中這是很簡單可以解決的事吧, 在我這邊有限的資源是捉襟見軸...

單單一個 IP 對 Google 每日必須是要在 1000 次以下, 超過的話就會被 ban 掉, 若是真的要如此做的話, 我必須準備 150 台機器才能夠每天更新, 且這網路瀕寬的成本可能不是我薪水能夠 cover 的過來的...

事實上我知道我們兩個意見的差距是, 即使我的動機不是甚麼多好多壞, 也要把這系統做好才對, 但或許您無法知道的是個人的資源的有限性, 以及您不知道這種抓取資料的困難點, 我通常會拿別人的系統來比雖然是藉口, 但也是要說要做到是沒那麼簡單的, 尤其是在我有限的能力與經驗, 或許您有機會可以指導一下或幫我們解決資源的問題, 會讓這系統更好...

兔爸 提到...

仔細一看原來大家的links大都九周沒有更新了!而影響的算法是分數是將 Google 加上 Blogger 及 Technorati 的總合 然後與 Yahoo Link 相乘,再開根號.

所以Yahoo link的分數佔很重說,這樣這個部份不更新不是影響很大嗎?

由於您有提到 因此在更新週期已經超過 7 天了, 甚至最近 google 與 yahoo 相繼改版, 剛剛才又整理一次程式,因此在不易更新的情形下是否該將此部份的分數降低哩!

很抱歉!由於我很在意自己的成長,所以會經常看自己的分數,特別是Yahoo 及 google link 一直停留在0/232,現在應該是201/9417,所以看了都很難過自己的排名無法成長,同時也期待這個值能更新!

【食夢黑貘】/ Black Tapir 提到...

的確, 現在已經有一半的 Server 被 google 給檔掉了... 慘~~~

且前幾天檢查一遍, 掛掉兩台機器, 發現記憶卡真的不行用....

現在 yahoo link 的抓取又回到台灣來抓, 我想應該會好很多了...

真的要尋求外援了, 不然照這成長狀況, 會超過能夠負擔的了...

兔爸 提到...

非常謝謝您喔!
對於您願意傾聽我的聲音感到幸福喔^^
能在您的站台底下被觀察是幸運的!

通達人 提到...

To【食夢黑貘】:
感謝你和其他部落格觀察開發團隊的付出,讓我們能有個比較客觀的指標,評量自己的部落格。
以下是我對於本文的回應。http://prudentman.idv.tw/2008/08/blog-post_27.html