------ 文章開始 ------

 作者  scuderia ( )                                              看板  EZsoft
 標題  Re: [請問] 有沒有html或文字軟體可以"擷取"前後的 …
 時間  Thu Aug 19 20:14:53 2010
───────────────────────────────────────

※ 引述《to1322 (to1322)》之銘言:
: 最近在幫公司做網頁html資料整理
: 想從html裡把需要的文字取出(目前是一個一個"拷貝"+"貼上"在word)
: <h6><a href="pplo/PENIAS">PENIAS</a></h6>
: 中間的"PENIAS"就是我要的文字
: 它固定夾在<h6>...</h6>中間
: 而前後段又都有很多我不需要的程式碼
: 一個html裡大概有幾百個我需要的
: 有沒有軟體可以幫我把<h6>......</h6>
: 中間這一段我需要的文字留下
: 不需要的程式碼移除的文字軟體呢?
: 感謝鄉民大大


    之前遇過類似問題,跟大家分享,獻醜了。


    以你的例子來說,把原始碼複製到 Notepad++ 之類的文字編輯器,

    取代掉空白、斷行之類的之後整理成有條理的呈現方式..

    <h6><a href="pplo/PENIAS">PENIAS</a></h6>

    接著用取代功能,把 "> 代換為 ">, 而 </a> 代換為 ,</a>,

    就會變成這樣:

    <h6><a href="pplo/PENIAS">,PENIAS,</a></h6>

    接著將這個文字檔存成 txt,打開 excel 使用資料匯入功能,

    分隔符號選擇為 , 後匯入,

    就會變成:

                      A              |  B    |  C
      1   <h6><a href="pplo/PENIAS"> |PENIAS | </a>
      2                              |       |
      3                              |        |


    按一下 B 就可以全選複製貼上到你要的地方去了,

    這個方法的優點是可以同時篩選出多組字串,提供你參考 :)




    如果所需字串前後是字數相同但是內容不同需要去除,如:

    <h6><a href="pplo/1111">1111</a></h6>
    <h6><a href="pplo/2222">2222</a></h6>
    <h6><a href="pplo/3333">3333</a></h6>

    可以直接在 Notepad++ 使用巨集功能錄製鍵盤動作,

    例如在 <h6> 前面按 24 下 del 然後按 ↓ 再按 home 到下一行首,

    然後讓他自動執行到文件結尾,就可以輕鬆全部砍掉,

    剩下的再用取代功能去掉就好。



    以上,給您做參考 :)

--
 馬皇馬皇!那邊有個村子    馬皇馬皇!好幾個國家說要來   馬皇馬皇~為什麼災情這麼慘
         滅了                   幫忙救災 文字:scuderia          You    ψQSWEET
  東森  ◥        騜  ◥  東森  ◥          騜  ◥       CNN  ◥see! ◤  騜
 ◤◎ ◎ 喔~~  ◤︶ ︶   ◤◎ ◎   喔~~  ◤︶ ︶       ◤◎ ◎ They自己⊙ ⊙◥
 ◥    ◤      ◥  █◤  ◥    ◤        ◥   3◤╯ξ  ◥    ◤沒準備 ◥皿  ◤
 ◥ ◥◥ (哈欠)◤ ◥◤   ◥ ◥◥   (煙~) ◤ ◥ ◤ ̄    ◥ ◥◥怪我喔?(◥ ◤ ◤)

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.161.248.69
→ imphs:不用吧 excel可以貼網頁 跟 word一樣 他能自動轉出文字       08/19 22:14
推 winth:不明白為何不直接開瀏覽器再把字copy就好?它是html不是嗎?  08/19 22:57
→ onelife:樓上,這樣要copy數千次吧                                08/20 09:20
→ r31422009: < 取代 <!--  然後 > 取代 --><br> 再用網頁開          08/20 09:43
→ r31422009:然後排序濾掉空行, 或是取代掉空行換行                  08/20 09:45
→ r31422009:不過文件內若有用到 > <文字 此法可能就不行             08/20 09:47
→ onelife:如果要一次處理所有檔案,用Notepad++的搜尋目錄,尋找     08/20 11:39
→ onelife:「<h6><a href=」,然後把搜尋結果複製到新文件裡          08/20 11:39
→ onelife:再用正規表示式                                          08/20 11:40
→ onelife:尋找「.*<h6><a href="[^"]*">(.+)</a></h6>.*」           08/20 11:40
→ onelife:  以「1」取代之                                        08/20 11:41
→ onelife:上述只是寫個大概,實際處理得看關鍵字怎麼變化            08/20 11:41
→ knives:正規表示式,一招KO,就非得搞得那麼麻煩幹嘛               08/21 16:44


------ 文章結尾 ------

[複製網址] [開新視窗] [加到我的最愛] [檢舉短網址] [QR條碼]



服務條款 - 完全手冊 - 加入會員(免費) - 聯絡偶們 -

© PPT.cc